معلومات عنا
اكتشف
ترجمة بشرية
القاموس العربي الصيني
ترجمة فورية أون لاين
مترجم بيت الحكمة
banner

直接生成16秒高清视频 我国自研视频大模型在京发布
الصين تكشف عن نموذج ذكاء اصطناعي كبير يحول النص إلى فيديو في بكين
2024-04-28 10:48:09

في الصورة الملتقطة يوم 25 أبريل 2024، امرأة تسير بجوار أحد التركيبات الفنية في مركز تشونغقوانتسون الدولي للابتكار، المكان لاستضافة المؤتمر السنوي لمنتدى تشونغقوانتسون، في العاصمة الصينية بكين. (شينخوا)

بكين 27 أبريل 2024 (شينخوا) تم كشف النقاب عن "فيدو"، نموذج كبير للذكاء الاصطناعي يحول النص إلى فيديو، وهو قادر على صناعة 16 ثانية من الفيديو عالي الجودة بدقة 1080 بكسل بنقرة واحدة، اليوم (السبت)، في منتدى تشونغقوانتسون 2024 في بكين.

ويعتبر "فيدو"، الذي طورته جامعة تسينغهوا بالتعاون مع شركة شنغشو الصينية للتكنولوجيا للذكاء الاصطناعي، أول نموذج كبير للذكاء الاصطناعي للفيديو يتمتع بخصائص "المدة الممتدة والاتساق الاستثنائي والقدرات الديناميكية".

وباعتباره نموذج ذكاء اصطناعي كبيرا مطورا في الصين، فإن "فيدو" قادر على فهم المحتوى الصيني مثل الباندا والتنين الصيني وتحويله، حسبما ذكر تشو جيون، نائب مدير معهد الذكاء الاصطناعي التابع لجامعة تسينغهوا.

وقالت الشركة إنه تم اقتراح البناء الأساسي للنموذج مع بداية 2022.


参考内容:

  只需一段文字指令就能生成一段逼真视频,今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。27日,2024中关村论坛年会上首次发布我国自研的具“长时长、高一致性、高动态性”特点的文生视频大模型Vidu。

  记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。

  清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间、空间中能保持高一致性。

  在动态性方面,Vidu能生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果。

  “Vidu能模拟真实物理世界,生成细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还能创造出具有深度和复杂性的超现实主义内容。”朱军介绍,由于采用“一步到位”的生成方式,视频片段从头到尾连续生成,没有明显的插帧现象。

  此外,Vidu还可生成如熊猫、龙等形象。

  据悉,Vidu的技术突破源于团队在机器学习和多模态大模型方面的长期积累,其核心技术架构由团队早在2022年就提出并持续开展自主研发。“作为一款通用视觉模型,我们相信,Vidu未来能支持生成更加多样化、更长时长的视频内容,探索不同的生成任务,其灵活架构也将兼容更广泛的模态,进一步拓展多模态通用能力的边界。”朱军说。

 


来源:新华网

编辑:马学军