中国首个Sora级视频大模型「Vidu」 发布,可理解中国元素
张小虎
发布于 2024-04-28 14:20
4月28日消息,昨日在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。
据悉,Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长达16秒、分辨率高达1080P的高清视频内容。
根据现场演示的效果,Vidu能够模拟真实的物理世界,能够生成细节复杂、并且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。它还具有丰富的想象力,能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容,例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。
此外,Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同 镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。
作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。

Vidu宣传视频截图
自今年2月Sora发布推出后,团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性。
“Vidu的命名不仅谐音‘Vedio’,也蕴含‘We do’的寓意。”清华大学教授、生数科技首席科学家朱军表示,模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合,希望与产业链上下游企业、研究机构加强合作,共同推动视频大模型进展。
SoraViduSora级视频大模型视频大模型创意视频视频制作
声明
1、该内容为作者独立观点,不代表4A广告网观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、如对本稿件有异议或投诉,请联系:info@4Anet.com
2、如对本稿件有异议或投诉,请联系:info@4Anet.com

张小虎
4A圈资深广告狂,喜欢研究创意,爱聊广告的所有八卦