ChatPaper.aiChatPaper

GenMAC: Generación de Texto a Video Compositiva con Colaboración Multiagente

GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

December 5, 2024
Autores: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI

Resumen

Los modelos de generación de video a partir de texto han mostrado un progreso significativo en los últimos años. Sin embargo, todavía tienen dificultades para generar escenas dinámicas complejas basadas en indicaciones textuales composicionales, como la vinculación de atributos para múltiples objetos, la dinámica temporal asociada con diferentes objetos e interacciones entre objetos. Nuestra principal motivación es que las tareas complejas pueden descomponerse en tareas más simples, cada una manejada por un agente MLLM especializado en roles. Varios agentes pueden colaborar para lograr inteligencia colectiva en objetivos complejos. Proponemos GenMAC, un marco iterativo de múltiples agentes que permite la generación composicional de video a partir de texto. El flujo de trabajo colaborativo incluye tres etapas: Diseño, Generación y Rediseño, con un bucle iterativo entre las etapas de Generación y Rediseño para verificar y refinar progresivamente los videos generados. La etapa de Rediseño es la más desafiante, ya que tiene como objetivo verificar los videos generados, sugerir correcciones y rediseñar las indicaciones textuales, los diseños por cuadro y las escalas de orientación para la siguiente iteración de generación. Para evitar la alucinación de un único agente MLLM, descomponemos esta etapa en cuatro agentes basados en MLLM ejecutados secuencialmente: agente de verificación, agente de sugerencia, agente de corrección y agente de estructuración de salida. Además, para abordar diversos escenarios de generación composicional de video a partir de texto, diseñamos un mecanismo de autoenrutamiento para seleccionar de forma adaptativa el agente de corrección adecuado de una colección de agentes de corrección, cada uno especializado en un escenario. Experimentos extensos demuestran la eficacia de GenMAC, logrando un rendimiento de vanguardia en la generación composicional de video a partir de texto.
English
Text-to-video generation models have shown significant progress in the recent years. However, they still struggle with generating complex dynamic scenes based on compositional text prompts, such as attribute binding for multiple objects, temporal dynamics associated with different objects, and interactions between objects. Our key motivation is that complex tasks can be decomposed into simpler ones, each handled by a role-specialized MLLM agent. Multiple agents can collaborate together to achieve collective intelligence for complex goals. We propose GenMAC, an iterative, multi-agent framework that enables compositional text-to-video generation. The collaborative workflow includes three stages: Design, Generation, and Redesign, with an iterative loop between the Generation and Redesign stages to progressively verify and refine the generated videos. The Redesign stage is the most challenging stage that aims to verify the generated videos, suggest corrections, and redesign the text prompts, frame-wise layouts, and guidance scales for the next iteration of generation. To avoid hallucination of a single MLLM agent, we decompose this stage to four sequentially-executed MLLM-based agents: verification agent, suggestion agent, correction agent, and output structuring agent. Furthermore, to tackle diverse scenarios of compositional text-to-video generation, we design a self-routing mechanism to adaptively select the proper correction agent from a collection of correction agents each specialized for one scenario. Extensive experiments demonstrate the effectiveness of GenMAC, achieving state-of-the art performance in compositional text-to-video generation.

Summary

AI-Generated Summary

PDF212December 9, 2024