Mora : Permettre la génération vidéo généraliste via un cadre multi-agent

papers.abstract

Sora est le premier modèle de génération vidéo généraliste à grande échelle ayant suscité une attention significative à travers la société. Depuis son lancement par OpenAI en février 2024, aucun autre modèle de génération vidéo n'a égalé les performances de Sora ou sa capacité à prendre en charge un large éventail de tâches de génération vidéo. De plus, il n'existe que quelques modèles de génération vidéo entièrement publiés, la majorité étant des systèmes propriétaires. Pour combler cette lacune, cet article propose un nouveau cadre multi-agent appelé Mora, qui intègre plusieurs agents d'IA visuelle avancés pour reproduire la génération vidéo généraliste démontrée par Sora. En particulier, Mora peut exploiter plusieurs agents visuels et réussir à imiter les capacités de génération vidéo de Sora dans diverses tâches, telles que (1) la génération de texte à vidéo, (2) la génération de vidéo à partir d'images conditionnées par du texte, (3) l'extension de vidéos générées, (4) l'édition de vidéo à vidéo, (5) la connexion de vidéos et (6) la simulation de mondes numériques. Nos résultats expérimentaux approfondis montrent que Mora atteint des performances proches de celles de Sora dans diverses tâches. Cependant, il existe un écart de performance évident entre notre travail et Sora lorsqu'ils sont évalués de manière globale. En résumé, nous espérons que ce projet pourra orienter la trajectoire future de la génération vidéo grâce à la collaboration d'agents d'IA.

English

Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.

Mora : Permettre la génération vidéo généraliste via un cadre multi-agent

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

papers.abstract

Support