真·拿嘴做视频!Meta“AI导演”一句话搞定视频素材,网友:我已跟不上AI发展速度
首先,AI导演根据输入文本生成图像嵌入。真拿嘴 然后,视频视频素材速度解码器Dt生成16帧64×64的句话RGB图像。 插值网络↑F会对初步结果进行插值,搞定以达到理想帧率。网友 接着,已跟第一重超分网络会将画面的不上分辨率提高到256×256。第二重超分网络则继续优化,发展将画质进一步提升至768×768。AI导演 基于这样的真拿嘴原理,Make-A-Video不仅能根据文字生成视频,视频视频素材速度还具备了以下几种能力。句话 将静态图像转成视频: 根据前后两张图片生成一段视频: 根据原视频生成新视频: 刷新文本视频生成模型SOTA 其实,搞定Meta的网友Make-A-Video并不是文本生成视频(T2V)的首次尝试。 比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。 更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。 不过这一次,Make-A-Video在生成质量上有明显的提升。 在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。 此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。 他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。 结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。 One More Thing 有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。 Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道: 我们将发布一个比Make-A-Video更好的模型,大家都能用的那种! 而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。 生成效果是这样的: 对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~
- 最近发表
- 随机阅读
-
- 日股收高 日经225指数收涨0.6%
- 广发银行首笔个人养老金业务在北京落地
- 华熙生物董事长举报风波罗生门: 公司称券商等中介结构核查“没有违法违规情况” 券商等中介机构却沉默
- 招银国际:维持医思健康买入评级 目标价10.34港元
- 近期债市回调,是风动、幡动还是心动?
- 马斯克宣布“特赦” 下周起推特将恢复被封账户
- 外汇局:1-10月中国外汇市场累计成交195.61万亿元人民币
- 俄媒:乌克兰一市长因使用俄语向市民讲话被罚款
- 宣昌能:存款保险制度作用显现 未来对存款类金融机构约束更强
- 个人养老金先行城市名单发布:福建全省纳入,四省有两城市入选
- 蒙牛又吃“奶酪”,完成要约收购持有妙可蓝多股份达35.01%
- 张兰模仿具俊晔打碟……
- 洞察消费需求,领跑消费趋势,今年双11蓝月亮如何持续霸榜?
- OPPO中国区总裁刘波:自研芯片将有新进展 公司暂无明确上市时间
- 南京汽车改装、北京北铃、河南新飞等10家汽车生产者召回部分商务车、救护车、旅居车等
- 数联全球、商通未来,2022全球数商大会在上海开幕
- 充电1小时收费达10元 共享充电宝成了价格“刺客”
- 妇炎洁低俗广告被通报:涉案企业被罚130万,追责20余人
- 中行为美的置业提供不超过300亿元人民币意向性授信额度 六大行合计授信额度已超1.3万亿
- 全球再保险进入“硬市场”周期,中再产险、慕尼黑再保险等机构高管热议行业趋势
- 搜索
-