ChatPaper.aiChatPaper

Mora: Habilitando a Geração de Vídeos Generalistas por meio de um Framework Multiagente

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

March 20, 2024
Autores: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
cs.AI

Resumo

Sora é o primeiro modelo de geração de vídeo generalista em grande escala que atraiu atenção significativa em toda a sociedade. Desde seu lançamento pela OpenAI em fevereiro de 2024, nenhum outro modelo de geração de vídeo igualou o desempenho de {Sora} ou sua capacidade de suportar uma ampla gama de tarefas de geração de vídeo. Além disso, existem poucos modelos de geração de vídeo totalmente publicados, com a maioria sendo de código fechado. Para preencher essa lacuna, este artigo propõe um novo framework multiagente chamado Mora, que incorpora vários agentes de IA visual avançados para replicar a geração de vídeo generalista demonstrada por Sora. Em particular, Mora pode utilizar múltiplos agentes visuais e imitar com sucesso as capacidades de geração de vídeo de Sora em diversas tarefas, como (1) geração de texto para vídeo, (2) geração de imagem para vídeo condicionada por texto, (3) extensão de vídeos gerados, (4) edição de vídeo para vídeo, (5) conexão de vídeos e (6) simulação de mundos digitais. Nossos extensos resultados experimentais mostram que Mora alcança um desempenho próximo ao de Sora em várias tarefas. No entanto, existe uma lacuna de desempenho evidente entre nosso trabalho e Sora quando avaliado de forma holística. Em resumo, esperamos que este projeto possa guiar a trajetória futura da geração de vídeo por meio de agentes de IA colaborativos.
English
Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.
PDF787February 8, 2026