ChatPaper.aiChatPaper

GenMAC: Compositie Text-to-Video Generatie met Multi-Agent Samenwerking

GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

December 5, 2024
Auteurs: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI

Samenvatting

Modellen voor tekst-naar-video generatie hebben de afgelopen jaren aanzienlijke vooruitgang geboekt. Echter, ze hebben nog steeds moeite met het genereren van complexe dynamische scènes op basis van compositorische tekst prompts, zoals attribuutbinding voor meerdere objecten, temporele dynamiek geassocieerd met verschillende objecten, en interacties tussen objecten. Onze belangrijkste motivatie is dat complexe taken kunnen worden opgesplitst in eenvoudigere taken, elk behandeld door een rol-gespecialiseerde MLLM-agent. Meerdere agenten kunnen samenwerken om collectieve intelligentie te bereiken voor complexe doelen. Wij stellen GenMAC voor, een iteratief, multi-agent framework dat compositorische tekst-naar-video generatie mogelijk maakt. De samenwerkingsworkflow omvat drie fasen: Ontwerp, Generatie, en Herontwerp, met een iteratieve lus tussen de Generatie en Herontwerp fasen om de gegenereerde video's progressief te verifiëren en verfijnen. De Herontwerp fase is de meest uitdagende fase die tot doel heeft de gegenereerde video's te verifiëren, correcties voor te stellen, en de tekst prompts, frame-gerichte lay-outs, en begeleidingschalen te herontwerpen voor de volgende iteratie van generatie. Om hallucinatie van een enkele MLLM-agent te vermijden, splitsen we deze fase op in vier sequentieel uitgevoerde MLLM-gebaseerde agenten: verificatieagent, suggestieagent, correctieagent, en output-structureringsagent. Bovendien, om diverse scenario's van compositorische tekst-naar-video generatie aan te pakken, ontwerpen we een zelfrouteringsmechanisme om adaptief de juiste correctieagent te selecteren uit een verzameling correctieagenten die elk gespecialiseerd zijn voor één scenario. Uitgebreide experimenten tonen de effectiviteit van GenMAC aan, met het behalen van state-of-the-art prestaties in compositorische tekst-naar-video generatie.
English
Text-to-video generation models have shown significant progress in the recent years. However, they still struggle with generating complex dynamic scenes based on compositional text prompts, such as attribute binding for multiple objects, temporal dynamics associated with different objects, and interactions between objects. Our key motivation is that complex tasks can be decomposed into simpler ones, each handled by a role-specialized MLLM agent. Multiple agents can collaborate together to achieve collective intelligence for complex goals. We propose GenMAC, an iterative, multi-agent framework that enables compositional text-to-video generation. The collaborative workflow includes three stages: Design, Generation, and Redesign, with an iterative loop between the Generation and Redesign stages to progressively verify and refine the generated videos. The Redesign stage is the most challenging stage that aims to verify the generated videos, suggest corrections, and redesign the text prompts, frame-wise layouts, and guidance scales for the next iteration of generation. To avoid hallucination of a single MLLM agent, we decompose this stage to four sequentially-executed MLLM-based agents: verification agent, suggestion agent, correction agent, and output structuring agent. Furthermore, to tackle diverse scenarios of compositional text-to-video generation, we design a self-routing mechanism to adaptively select the proper correction agent from a collection of correction agents each specialized for one scenario. Extensive experiments demonstrate the effectiveness of GenMAC, achieving state-of-the art performance in compositional text-to-video generation.
PDF212December 9, 2024