炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?

OpenAI 风轻云淡地丢出一个新模型,结果,炸翻了整个 AI 圈!

Sora 的出现,让文生视频领域从以秒为单位的突破,变成了以分钟为单位。

这是一个跨越式,足以将之前行业所有公司掀下牌桌的改变。

将 Sora 的出现,称之为文生视频领域的“iPhone时刻”,似乎也毫不为过。

AI 博主@歸藏 将同一个 Prompt 丢给 Sora、Runway、Pika 和 SVD 四大文生视频模型,结果,Sora 以碾压的方式获得胜利

图片[1]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

下面是完整视频对比,效果更震撼↓

这样的对比还有很多:

图片[2]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

同一个 Prompt,截然不同的视觉呈现。

图片[3]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

毁灭你,与你无关。

继 ChatGPT 之后,OpenAI 再一次将《三体》中这句经典的台词活生生地甩给整个 AI 世界。

就连一向和 OpenAI 不对付的马斯克也甘心承认 Sora 的强大,并盛赞“在未来的几年里,人类借助 AI 的力量,将创造出卓越的作品。”

图片[4]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

官宣 Sora 模型几个小时后,OpenAI 的技术报告也随之公开:在报告中,Sora 模型被称为“里程碑式”的突破。

图片[5]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

Sora 是怎样炼成的?

众所周知:OpenAI 曾在 LLM(大语言模型)上取得巨大的成功,那这种模式能不能应用到文生视频领域呢?

答案是可以

受 LLM 成功实践经验的启发,OpenAI 引入视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。

“Patch”对应的是我们熟悉的“Token”

图片[6]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

在大语言模型中,Token 之所以会如此成功,得益于 Transformer 架构,它与 Token 互为补充、相得益彰。

同样,Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构。( 主流视频生成扩散模型较多采用 U-Net 架构 )

在技术路线上,OpenAI 直接颠覆之前所谓的”主流路线“

图片[7]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

从 Prompt 输入到视频输出,主要有4个核心步骤:

√ 第一步:压缩,OpenAI 将视频数据压缩到一个低纬潜在空间;
 第二步:分解,再将其分解为时空嵌入,从而将视频转化为一系列编码块;
 第三步:生成,Sora 在压缩后的潜在空间中进行训练,并生成视频;
 第四步:解码,借助”解码模型器“,将这些潜在表征还原为像素级的视频图像。

借助 patchs 的独特性能,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像。

在生成新视频内容时,可以通过将这些随机初始化的 patchs 按照需要的大小排列成网格,来控制最终视频的大小和形式。

大家可以把它理解成”拼图游戏“,并且随着训练计算量的提升,Sora 可以用来选择的素材就越多,生成视频质量就越高!

图片[8]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

传统文生视频模型,往往会将视频、图像统一调整到一个标准尺寸,比如4秒钟、分辨率256×256的视频。

然而,OpenAI研究者发现,直接在数据的原始尺寸上进行训练有更多优势:

√ 生成的视频能更好的自定义时长
√ 生成的视频能够更好的自定义视频尺寸
√ 视频会有更好的取景和构图

图片[9]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

除了引入 Transformer 架构,OpenAI 还将在 DALL·E 3 中的重新标注技术应用到视频上。

借助 GPT,OpenAI 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得 Sora 能够生成高质量的视频。

除了可以从文字转化而来,Sora 还能接受图片或已有视频的输入。

这项功能让 Sora 能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等

比如:形成“SORA”字样的云朵。

图片[10]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

将巨大的海浪,放到室内环境中。

图片[11]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

基于 DALL·E 3 图像生成视频。

图片[12]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

将视频沿时间线,向前或向后扩展。

图片[13]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计
图片[14]-炸翻整个AI圈的Sora模型,究竟是怎么被OpenAI炼成的?-知计

从整体来看,你会发现 Sora 模型的成功并非偶然,它并不是 OpenAI 无中生有、凭空捏造的超级模型。

而是借助过去的成功经验,最终训练而成

温馨提示:本文发布于2024年02月20日 12:14,某些资源具有时效性,若有错误或已失效,请联系知计修复。
----- < 完 > -----
喜欢就支持一下吧
点赞385 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容