Mora: Ermöglichen der generellen Videoerzeugung über ein Multi-Agenten-Framework
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
March 20, 2024
Autoren: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
cs.AI
Zusammenfassung
Sora ist das erste groß angelegte allgemeine Video-Generierungsmodell, das erhebliche Aufmerksamkeit in der Gesellschaft erregt hat. Seit seiner Einführung durch OpenAI im Februar 2024 haben keine anderen Video-Generierungsmodelle die Leistung oder die Fähigkeit von Sora übertroffen, eine breite Palette von Video-Generierungsaufgaben zu unterstützen. Darüber hinaus gibt es nur wenige vollständig veröffentlichte Video-Generierungsmodelle, wobei die Mehrheit Closed-Source ist. Um diese Lücke zu schließen, schlägt dieser Artikel ein neues Multi-Agenten-Framework namens Mora vor, das mehrere fortschrittliche visuelle KI-Agenten integriert, um die allgemeine Video-Generierung nachzuahmen, die von Sora demonstriert wird. Insbesondere kann Mora mehrere visuelle Agenten nutzen und erfolgreich Soras Video-Generierungsfähigkeiten in verschiedenen Aufgaben nachahmen, wie (1) Text-zu-Video-Generierung, (2) textbedingte Bild-zu-Video-Generierung, (3) erweiterte generierte Videos, (4) Video-zu-Video-Bearbeitung, (5) Verbindung von Videos und (6) Simulation digitaler Welten. Unsere umfangreichen experimentellen Ergebnisse zeigen, dass Mora eine Leistung erzielt, die in verschiedenen Aufgaben Sora nahekommt. Es besteht jedoch ein offensichtlicher Leistungsunterschied zwischen unserer Arbeit und Sora, wenn ganzheitlich bewertet. Zusammenfassend hoffen wir, dass dieses Projekt die zukünftige Entwicklung der Video-Generierung durch kollaborative KI-Agenten lenken kann.
English
Sora is the first large-scale generalist video generation model that garnered
significant attention across society. Since its launch by OpenAI in February
2024, no other video generation models have paralleled {Sora}'s performance or
its capacity to support a broad spectrum of video generation tasks.
Additionally, there are only a few fully published video generation models,
with the majority being closed-source. To address this gap, this paper proposes
a new multi-agent framework Mora, which incorporates several advanced visual AI
agents to replicate generalist video generation demonstrated by Sora. In
particular, Mora can utilize multiple visual agents and successfully mimic
Sora's video generation capabilities in various tasks, such as (1)
text-to-video generation, (2) text-conditional image-to-video generation, (3)
extend generated videos, (4) video-to-video editing, (5) connect videos and (6)
simulate digital worlds. Our extensive experimental results show that Mora
achieves performance that is proximate to that of Sora in various tasks.
However, there exists an obvious performance gap between our work and Sora when
assessed holistically. In summary, we hope this project can guide the future
trajectory of video generation through collaborative AI agents.Summary
AI-Generated Summary