解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样_9球直播

时慕华足球新闻 2023-11-09 130 0

机器之心报告

：张倩

用过 OpenAI 视觉 API 的开发者都被惊艳到了梅西。

文章开始梅西，我们先来看一段球赛解说视频：

是不是感觉听起来不太对劲梅西？

你的感觉没错，因这段解说是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI梅西。

这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视频梅西。她表明，在制作过程中，她主要用到了 GPT-4V 和 TTS 两项技术。

GPT-4V 是 OpenAI 前段时间发布的一个多模态大模型，既能像原版的 ChatGPT 一样通过文字聊天，也能读懂用户在聊天中给到的图像梅西。更令人兴奋的是，在昨天的开发者大会上，OpenAI 宣布，她们已开放了视觉能力相关的 API——gpt-4-vision-preview。通过这个 API，开发者能用 OpenAI 最新的 GPT-4 Turbo（视觉版）来开发新应用。

关于这个期待已久的 API，开发者们都跃跃欲试梅西。因此，API 刚开放一天，就有不少开发者晒出了试用结果，这个球赛解说就是其中之一。

展开全部文章内容

博主表明，为了制作这个解说视频，她将原视频的帧分批传给 gpt-4-vision-preview，然后通过一些简单的提示（prompt）要求模型生成一段旁白，最后把获得的结果用 TTS（文这转语音技术）转成音频，就能获得视频中展示的效果梅西。假如稍加，理论上还能获得更好的结果。按照 OpenAI 现在的定价，制作这个视频大约要花 30 美元，直呼「不便宜」。

相关代码：

除了球赛，还有开发者晒出了自己用 OpenAI 视觉 API 解说《英雄联盟》的 demo，这个 demo 用到的是 LNG 和 T1 的一场赛事视频，引起了全网 50 多万网上粉丝的围观梅西。

解说链接如下：

不过，这类视频具体要咋做呢？好在，除了这些成品效果，部分开发者还晒出了自己总结的教程，和每个步骤中涉及的具体工具梅西。

从 X 平台用户 @小互晒出的内容来开梅西，整个实现过程能分为 7 步：

提取视频帧；

构建描述提示；

发送 GPT 请求；

制作语音解说提示；

生成语音解说脚这；

将脚这转换为音频；

将音频和视频结合梅西。

具体内容请参见以下教程：

不过梅西，有人在评论区提出疑问：解说的这些赛事都是以前的，实时的赛事能解说吗？

能否解说实时的赛事我们现在还看不出来梅西，不过，确实有开发者晒出了用 OpenAI 视觉 API 实时解读摄像头内容的 demo：

项目链接：

做了类似实验的开发者评价说，OpenAI 视觉 API 的识别速度蛮快、准确性也蛮高梅西。

甚至有人直接把它当实时绘图工具来用梅西，把手里的草图实时转换为此前调用专业绘图工具才能绘制的图表：

不过，这个实时效果的实验会受到 OpenAI 设置的速率限制梅西。

能说，OpenAI 正通过 GPT-4V 和刚刚开放的视觉 API 让全世界看到多模态的力量，以上效果只是冰山一角梅西。

其实，无论是在现实生活中，还是在研究领域，一个能读懂图像、视频的 AI 都有广泛的用途梅西。

在生活中，它能用于构建更加智能的机器人，让机器人实时分析眼前的情景，随机应变，这也是当前大火的具身智能所研究的问题梅西。

国内创业公司开发的具身智能机器人（参见《独家 | 达摩院后的下一站：陈俊波推出具身智能大模型梅西，要给全部机器人做一颗脑袋》）

除此以外，它还能用于改善视障群体的生活质量，帮助她们解读视频画面和生活场景梅西。其实，在字节跳动去年举办的一个帮助视障群体的公益赛事中，我们就能看到不少类似的创意，只是当时多模态技术还不够成熟（参见《穿颜色成对的袜子，追最新的剧：这群 coder 正帮视障者移走身上的大山》）。

在微软今天的一篇论文中，研究者也展示了她们在这方面获得的进展，比如用 GPT-4V 解读《憨豆先生》剧情梅西。

这种优秀的视频解读能力可以帮助研究人员更好地理解视频，从而把广泛存在的视频转化为新的训练数据，训练出更聪明的 AI，形成一个闭环梅西。

看来，一个更智能的世界正在加速到来梅西。

参考链接：

喜欢0 发布评论

评论列表

发表评论