GenMAC : Génération textuelle en vidéo avec collaboration multi-agent
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
December 5, 2024
Auteurs: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI
Résumé
Les modèles de génération texte-vidéo ont montré des progrès significatifs ces dernières années. Cependant, ils rencontrent encore des difficultés à générer des scènes dynamiques complexes basées sur des indications textuelles compositionnelles, telles que la liaison d'attributs pour plusieurs objets, la dynamique temporelle associée à différents objets et les interactions entre objets. Notre principale motivation est que les tâches complexes peuvent être décomposées en tâches plus simples, chacune gérée par un agent MLLM spécialisé dans un rôle. Plusieurs agents peuvent collaborer pour atteindre une intelligence collective pour des objectifs complexes. Nous proposons GenMAC, un cadre itératif multi-agent qui permet la génération compositionnelle de texte-vidéo. Le flux de travail collaboratif comprend trois étapes : Conception, Génération et Réaménagement, avec une boucle itérative entre les étapes de Génération et de Réaménagement pour vérifier progressivement et affiner les vidéos générées. L'étape de Réaménagement est l'étape la plus difficile qui vise à vérifier les vidéos générées, suggérer des corrections et réaménager les indications textuelles, les mises en page image par image et les échelles de guidage pour la prochaine itération de génération. Pour éviter l'hallucination d'un seul agent MLLM, nous décomposons cette étape en quatre agents basés sur MLLM exécutés séquentiellement : agent de vérification, agent de suggestion, agent de correction et agent de structuration de la sortie. De plus, pour aborder divers scénarios de génération compositionnelle de texte-vidéo, nous concevons un mécanisme d'auto-routage pour sélectionner de manière adaptative le bon agent de correction parmi une collection d'agents de correction, chacun spécialisé pour un scénario. Des expériences approfondies démontrent l'efficacité de GenMAC, atteignant des performances de pointe en matière de génération compositionnelle de texte-vidéo.
English
Text-to-video generation models have shown significant progress in the recent
years. However, they still struggle with generating complex dynamic scenes
based on compositional text prompts, such as attribute binding for multiple
objects, temporal dynamics associated with different objects, and interactions
between objects. Our key motivation is that complex tasks can be decomposed
into simpler ones, each handled by a role-specialized MLLM agent. Multiple
agents can collaborate together to achieve collective intelligence for complex
goals. We propose GenMAC, an iterative, multi-agent framework that enables
compositional text-to-video generation. The collaborative workflow includes
three stages: Design, Generation, and Redesign, with an iterative loop between
the Generation and Redesign stages to progressively verify and refine the
generated videos. The Redesign stage is the most challenging stage that aims to
verify the generated videos, suggest corrections, and redesign the text
prompts, frame-wise layouts, and guidance scales for the next iteration of
generation. To avoid hallucination of a single MLLM agent, we decompose this
stage to four sequentially-executed MLLM-based agents: verification agent,
suggestion agent, correction agent, and output structuring agent. Furthermore,
to tackle diverse scenarios of compositional text-to-video generation, we
design a self-routing mechanism to adaptively select the proper correction
agent from a collection of correction agents each specialized for one scenario.
Extensive experiments demonstrate the effectiveness of GenMAC, achieving
state-of-the art performance in compositional text-to-video generation.Summary
AI-Generated Summary