GenMAC: Kompositionelle Text-zu-Video-Generierung mit Multi-Agenten-Kollaboration
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
December 5, 2024
Autoren: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI
Zusammenfassung
Text-zu-Video-Generierungsmodelle haben in den letzten Jahren signifikante Fortschritte gezeigt. Dennoch haben sie nach wie vor Schwierigkeiten bei der Erzeugung komplexer dynamischer Szenen auf der Grundlage von zusammengesetzten Textvorgaben, wie beispielsweise Attributbindung für mehrere Objekte, zeitliche Dynamiken, die mit verschiedenen Objekten verbunden sind, und Interaktionen zwischen Objekten. Unsere Hauptmotivation ist, dass komplexe Aufgaben in einfachere Aufgaben zerlegt werden können, die jeweils von einem rollenspezialisierten MLLM-Agenten bearbeitet werden. Mehrere Agenten können zusammenarbeiten, um kollektive Intelligenz für komplexe Ziele zu erreichen. Wir schlagen GenMAC vor, ein iteratives, multi-agentenbasiertes Framework, das die zusammengesetzte Text-zu-Video-Generierung ermöglicht. Der kollaborative Arbeitsablauf umfasst drei Phasen: Design, Generierung und Neugestaltung, mit einer iterativen Schleife zwischen den Generierungs- und Neugestaltungsphasen, um die generierten Videos schrittweise zu überprüfen und zu verfeinern. Die Neugestaltungsphase ist die anspruchsvollste Phase, die darauf abzielt, die generierten Videos zu überprüfen, Korrekturen vorzuschlagen und die Textvorgaben, frame-weise Layouts und Anleitungsskalen für die nächste Generationsiteration neu zu gestalten. Um die Halluzination eines einzelnen MLLM-Agenten zu vermeiden, zerlegen wir diese Phase in vier sequenziell ausgeführte MLLM-basierte Agenten: Verifikationsagent, Vorschlagsagent, Korrekturagent und Ausgabe-Strukturierungsagent. Darüber hinaus, um verschiedene Szenarien der zusammengesetzten Text-zu-Video-Generierung zu bewältigen, entwerfen wir einen selbststeuernden Mechanismus zur adaptiven Auswahl des geeigneten Korrekturagenten aus einer Sammlung von Korrekturagenten, die jeweils auf ein Szenario spezialisiert sind. Umfangreiche Experimente zeigen die Wirksamkeit von GenMAC und erreichen eine Leistung auf dem neuesten Stand der Technik in der zusammengesetzten Text-zu-Video-Generierung.
English
Text-to-video generation models have shown significant progress in the recent
years. However, they still struggle with generating complex dynamic scenes
based on compositional text prompts, such as attribute binding for multiple
objects, temporal dynamics associated with different objects, and interactions
between objects. Our key motivation is that complex tasks can be decomposed
into simpler ones, each handled by a role-specialized MLLM agent. Multiple
agents can collaborate together to achieve collective intelligence for complex
goals. We propose GenMAC, an iterative, multi-agent framework that enables
compositional text-to-video generation. The collaborative workflow includes
three stages: Design, Generation, and Redesign, with an iterative loop between
the Generation and Redesign stages to progressively verify and refine the
generated videos. The Redesign stage is the most challenging stage that aims to
verify the generated videos, suggest corrections, and redesign the text
prompts, frame-wise layouts, and guidance scales for the next iteration of
generation. To avoid hallucination of a single MLLM agent, we decompose this
stage to four sequentially-executed MLLM-based agents: verification agent,
suggestion agent, correction agent, and output structuring agent. Furthermore,
to tackle diverse scenarios of compositional text-to-video generation, we
design a self-routing mechanism to adaptively select the proper correction
agent from a collection of correction agents each specialized for one scenario.
Extensive experiments demonstrate the effectiveness of GenMAC, achieving
state-of-the art performance in compositional text-to-video generation.Summary
AI-Generated Summary