Mora: Habilitando la generación de video generalista mediante un marco de trabajo multiagente
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
March 20, 2024
Autores: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
cs.AI
Resumen
Sora es el primer modelo de generación de video generalista a gran escala que ha captado una atención significativa en toda la sociedad. Desde su lanzamiento por OpenAI en febrero de 2024, ningún otro modelo de generación de video ha igualado el rendimiento de Sora ni su capacidad para respaldar una amplia gama de tareas de generación de video. Además, existen pocos modelos de generación de video completamente publicados, siendo la mayoría de código cerrado. Para abordar esta brecha, este artículo propone un nuevo marco de trabajo multiagente llamado Mora, que incorpora varios agentes de IA visual avanzados para replicar la generación de video generalista demostrada por Sora. En particular, Mora puede utilizar múltiples agentes visuales y replicar con éxito las capacidades de generación de video de Sora en diversas tareas, como (1) generación de texto a video, (2) generación de imagen a video condicionada por texto, (3) extensión de videos generados, (4) edición de video a video, (5) conexión de videos y (6) simulación de mundos digitales. Nuestros extensos resultados experimentales muestran que Mora alcanza un rendimiento cercano al de Sora en diversas tareas. Sin embargo, existe una brecha de rendimiento evidente entre nuestro trabajo y Sora cuando se evalúa de manera integral. En resumen, esperamos que este proyecto pueda guiar la trayectoria futura de la generación de video a través de la colaboración de agentes de IA.
English
Sora is the first large-scale generalist video generation model that garnered
significant attention across society. Since its launch by OpenAI in February
2024, no other video generation models have paralleled {Sora}'s performance or
its capacity to support a broad spectrum of video generation tasks.
Additionally, there are only a few fully published video generation models,
with the majority being closed-source. To address this gap, this paper proposes
a new multi-agent framework Mora, which incorporates several advanced visual AI
agents to replicate generalist video generation demonstrated by Sora. In
particular, Mora can utilize multiple visual agents and successfully mimic
Sora's video generation capabilities in various tasks, such as (1)
text-to-video generation, (2) text-conditional image-to-video generation, (3)
extend generated videos, (4) video-to-video editing, (5) connect videos and (6)
simulate digital worlds. Our extensive experimental results show that Mora
achieves performance that is proximate to that of Sora in various tasks.
However, there exists an obvious performance gap between our work and Sora when
assessed holistically. In summary, we hope this project can guide the future
trajectory of video generation through collaborative AI agents.Summary
AI-Generated Summary