[已过期]OpenAI 新王炸 —— Sora AI视频生成软件
去年最大的科技创新就是Open AI的ChatGPT,没想到才不到1年,他们就又从裤兜中掏出了全新大杀器——Sora。
“我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。”根据Open AI的官方说法,他们已经教会AI自己生成视频,仅根据您所输入的文字,就可以生成相关联的视频,并且几乎能达到以假乱真的程度。(⬆️Sora宣传片就是自我生成的视频)
OpenAI的Sora利用视觉块嵌入代码(patches)将视频数据压缩至低维潜在空间,并将其分解为时空嵌入,然后训练一个专门用于降低视觉数据维度的网络。该网络将原始视频输入,输出压缩后的潜在表示,并在此空间内生成视频。同时,OpenAI还训练了一个解码器模型,能将这些潜在表征还原为像素级的视频图像。通过这种方式,Sora能够适应不同分辨率、持续时间和宽高比的视频和图像,以生成新的视频内容。
不过Sora也还是面临着一些问题,暂时Sora只能做到1分钟的自动生成,且生成的视频可能会产生一些逻辑问题;例如上图,跑步机上的男子在反向奔跑,或者一个人可能咬了一口饼干,但之后饼干可能没有咬痕,等等。颇有种游戏世界中的Bug跑到了现实世界中的感觉。
但是就算这样,Sora也依旧是我们能见到的最强大的视频智能生成AI。无论是在视频的真实性、长度、稳定性、一致性、分辨率还是对文本的理解方面,Sora 均展现出了目前最佳的水平。
在大规模训练下,OpenAI的Sora展现出了引人注目的涌现能力,能够模拟真实世界中的人、动物和环境,而非基于特定预设,而是由大规模数据驱动产生的。其能力包括三维空间的连贯性,远距离连续性与物体持久性,以及数字世界的模拟。OpenAI认为Sora是理解和模拟现实世界的基础,其能力是实现人工智能通用智能(AGI)的重要里程碑,而这个未来也许并不久远了。