GenMAC: Geração Composicional de Texto para Vídeo com Colaboração Multiagente
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
December 5, 2024
Autores: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI
Resumo
Os modelos de geração de texto para vídeo têm mostrado um progresso significativo nos últimos anos. No entanto, ainda enfrentam dificuldades em gerar cenas dinâmicas complexas com base em instruções textuais compostas, como a vinculação de atributos para múltiplos objetos, dinâmicas temporais associadas a diferentes objetos e interações entre objetos. Nossa principal motivação é que tarefas complexas podem ser decompostas em tarefas mais simples, cada uma tratada por um agente MLLM especializado em funções. Múltiplos agentes podem colaborar para alcançar inteligência coletiva para metas complexas. Propomos o GenMAC, um framework iterativo e multiagente que possibilita a geração de texto para vídeo de forma composicional. O fluxo de trabalho colaborativo inclui três etapas: Design, Geração e Redesign, com um loop iterativo entre as etapas de Geração e Redesign para verificar e refinar progressivamente os vídeos gerados. A etapa de Redesign é a mais desafiadora, visando verificar os vídeos gerados, sugerir correções e redesenhar as instruções de texto, layouts por quadro e escalas de orientação para a próxima iteração de geração. Para evitar a alucinação de um único agente MLLM, decomponha essa etapa em quatro agentes baseados em MLLM executados sequencialmente: agente de verificação, agente de sugestão, agente de correção e agente de estruturação de saída. Além disso, para lidar com diversos cenários de geração de texto para vídeo de forma composicional, projetamos um mecanismo de autoencaminhamento para selecionar adaptativamente o agente de correção apropriado de uma coleção de agentes de correção, cada um especializado para um cenário. Experimentos extensivos demonstram a eficácia do GenMAC, alcançando um desempenho de ponta na geração de texto para vídeo de forma composicional.
English
Text-to-video generation models have shown significant progress in the recent
years. However, they still struggle with generating complex dynamic scenes
based on compositional text prompts, such as attribute binding for multiple
objects, temporal dynamics associated with different objects, and interactions
between objects. Our key motivation is that complex tasks can be decomposed
into simpler ones, each handled by a role-specialized MLLM agent. Multiple
agents can collaborate together to achieve collective intelligence for complex
goals. We propose GenMAC, an iterative, multi-agent framework that enables
compositional text-to-video generation. The collaborative workflow includes
three stages: Design, Generation, and Redesign, with an iterative loop between
the Generation and Redesign stages to progressively verify and refine the
generated videos. The Redesign stage is the most challenging stage that aims to
verify the generated videos, suggest corrections, and redesign the text
prompts, frame-wise layouts, and guidance scales for the next iteration of
generation. To avoid hallucination of a single MLLM agent, we decompose this
stage to four sequentially-executed MLLM-based agents: verification agent,
suggestion agent, correction agent, and output structuring agent. Furthermore,
to tackle diverse scenarios of compositional text-to-video generation, we
design a self-routing mechanism to adaptively select the proper correction
agent from a collection of correction agents each specialized for one scenario.
Extensive experiments demonstrate the effectiveness of GenMAC, achieving
state-of-the art performance in compositional text-to-video generation.Summary
AI-Generated Summary