Mora: Abilitare la Generazione di Video Generalista tramite un Framework Multi-Agente

Abstract

Sora è il primo modello su larga scala per la generazione di video generalista che ha attirato un'attenzione significativa a livello sociale. Dal suo lancio da parte di OpenAI nel febbraio 2024, nessun altro modello di generazione video ha eguagliato le prestazioni di Sora o la sua capacità di supportare un'ampia gamma di compiti di generazione video. Inoltre, esistono solo pochi modelli di generazione video completamente pubblicati, con la maggior parte di essi essendo closed-source. Per colmare questa lacuna, questo articolo propone un nuovo framework multi-agente chiamato Mora, che incorpora diversi agenti di intelligenza artificiale visiva avanzati per replicare la generazione di video generalista dimostrata da Sora. In particolare, Mora può utilizzare più agenti visivi e imitare con successo le capacità di generazione video di Sora in vari compiti, come (1) generazione di video da testo, (2) generazione di video condizionata da testo a partire da immagini, (3) estensione di video generati, (4) modifica di video, (5) connessione di video e (6) simulazione di mondi digitali. I nostri estesi risultati sperimentali mostrano che Mora raggiunge prestazioni prossime a quelle di Sora in vari compiti. Tuttavia, esiste un evidente divario prestazionale tra il nostro lavoro e Sora quando valutato in modo olistico. In sintesi, speriamo che questo progetto possa guidare il futuro percorso della generazione video attraverso la collaborazione di agenti di intelligenza artificiale.

English

Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.

Mora: Abilitare la Generazione di Video Generalista tramite un Framework Multi-Agente

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Abstract

Support