ChatPaper.aiChatPaper

Mora: マルチエージェントフレームワークによる汎用ビデオ生成の実現

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

March 20, 2024
著者: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
cs.AI

要旨

Soraは、社会全体で大きな注目を集めた初の大規模汎用ビデオ生成モデルである。2024年2月にOpenAIによって発表されて以来、Soraの性能や幅広いビデオ生成タスクをサポートする能力に匹敵するビデオ生成モデルは存在しない。さらに、完全に公開されているビデオ生成モデルはごく少数であり、そのほとんどがクローズドソースである。このギャップを埋めるため、本論文では、Soraが示した汎用ビデオ生成を再現するために、複数の先進的な視覚AIエージェントを組み込んだ新しいマルチエージェントフレームワークMoraを提案する。特に、Moraは複数の視覚エージェントを活用し、(1)テキストからビデオを生成、(2)テキスト条件付き画像からビデオを生成、(3)生成されたビデオを拡張、(4)ビデオからビデオを編集、(5)ビデオを接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、Soraのビデオ生成能力を模倣することに成功している。我々の広範な実験結果は、Moraが様々なタスクにおいてSoraに近い性能を達成することを示している。しかし、全体的に評価すると、我々の研究とSoraの間には明らかな性能差が存在する。要約すると、我々はこのプロジェクトが、協調的なAIエージェントを通じてビデオ生成の将来の方向性を導くことを期待している。
English
Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.

Summary

AI-Generated Summary

PDF797December 15, 2024