Mora: Het mogelijk maken van algemene videogeneratie via een multi-agent raamwerk
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
March 20, 2024
Auteurs: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
cs.AI
Samenvatting
Sora is het eerste grootschalige generalistische videogeneratiemodel dat aanzienlijke maatschappelijke aandacht heeft getrokken. Sinds de lancering door OpenAI in februari 2024, heeft geen enkel ander videogeneratiemodel de prestaties van Sora geëvenaard of diens vermogen om een breed scala aan videogeneratietaken te ondersteunen. Daarnaast zijn er slechts enkele volledig gepubliceerde videogeneratiemodellen, waarbij de meeste gesloten broncode hebben. Om dit gat te dichten, stelt dit artikel een nieuw multi-agent framework voor, genaamd Mora, dat verschillende geavanceerde visuele AI-agents integreert om de generalistische videogeneratie van Sora na te bootsen. In het bijzonder kan Mora meerdere visuele agents inzetten en met succes de videogeneratiecapaciteiten van Sora nabootsen in diverse taken, zoals (1) tekst-naar-video generatie, (2) tekst-conditionele beeld-naar-video generatie, (3) het verlengen van gegenereerde video's, (4) video-naar-video bewerking, (5) het verbinden van video's en (6) het simuleren van digitale werelden. Onze uitgebreide experimentele resultaten tonen aan dat Mora prestaties bereikt die dicht in de buurt komen van die van Sora in verschillende taken. Er bestaat echter een duidelijk prestatieverschil tussen ons werk en Sora wanneer dit holistisch wordt beoordeeld. Samenvattend hopen we dat dit project de toekomstige richting van videogeneratie kan sturen door middel van collaboratieve AI-agents.
English
Sora is the first large-scale generalist video generation model that garnered
significant attention across society. Since its launch by OpenAI in February
2024, no other video generation models have paralleled {Sora}'s performance or
its capacity to support a broad spectrum of video generation tasks.
Additionally, there are only a few fully published video generation models,
with the majority being closed-source. To address this gap, this paper proposes
a new multi-agent framework Mora, which incorporates several advanced visual AI
agents to replicate generalist video generation demonstrated by Sora. In
particular, Mora can utilize multiple visual agents and successfully mimic
Sora's video generation capabilities in various tasks, such as (1)
text-to-video generation, (2) text-conditional image-to-video generation, (3)
extend generated videos, (4) video-to-video editing, (5) connect videos and (6)
simulate digital worlds. Our extensive experimental results show that Mora
achieves performance that is proximate to that of Sora in various tasks.
However, there exists an obvious performance gap between our work and Sora when
assessed holistically. In summary, we hope this project can guide the future
trajectory of video generation through collaborative AI agents.