GenMAC: 複数エージェントの協力による構成テキストからビデオへの生成
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
December 5, 2024
著者: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI
要旨
テキストからビデオを生成するモデルは、近年、著しい進歩を示しています。しかし、複数のオブジェクトに対する属性の結合や、異なるオブジェクトに関連する時間的ダイナミクス、オブジェクト間の相互作用など、構成的なテキストプロンプトに基づいた複雑なダイナミックシーンの生成には依然として苦労しています。私たちの主な動機は、複雑なタスクをより単純なタスクに分解し、それぞれを役割に特化したMLLMエージェントが処理することができるという点にあります。複数のエージェントが協力して複雑な目標のための集合知を達成することができます。私たちは、構成的なテキストからビデオを生成するための反復的なマルチエージェントフレームワークであるGenMACを提案します。協力的なワークフローには、設計、生成、再設計の3つの段階が含まれており、生成と再設計の段階の間で反復的なループが行われ、生成されたビデオを段階的に検証および改善します。再設計段階は、生成されたビデオを検証し、修正を提案し、次の生成のためのテキストプロンプト、フレームワイズのレイアウト、およびガイダンススケールを再設計することを目指す最も難しい段階です。単一のMLLMエージェントの幻想を避けるために、この段階を、順次実行される4つのMLLMベースのエージェントに分解します:検証エージェント、提案エージェント、修正エージェント、および出力構造化エージェント。さらに、構成的なテキストからビデオを生成するさまざまなシナリオに対処するために、適応的に適切な修正エージェントを選択するための自己経路メカニズムを設計します。幅広い実験により、GenMACの効果を実証し、構成的なテキストからビデオを生成する際の最先端のパフォーマンスを達成しています。
English
Text-to-video generation models have shown significant progress in the recent
years. However, they still struggle with generating complex dynamic scenes
based on compositional text prompts, such as attribute binding for multiple
objects, temporal dynamics associated with different objects, and interactions
between objects. Our key motivation is that complex tasks can be decomposed
into simpler ones, each handled by a role-specialized MLLM agent. Multiple
agents can collaborate together to achieve collective intelligence for complex
goals. We propose GenMAC, an iterative, multi-agent framework that enables
compositional text-to-video generation. The collaborative workflow includes
three stages: Design, Generation, and Redesign, with an iterative loop between
the Generation and Redesign stages to progressively verify and refine the
generated videos. The Redesign stage is the most challenging stage that aims to
verify the generated videos, suggest corrections, and redesign the text
prompts, frame-wise layouts, and guidance scales for the next iteration of
generation. To avoid hallucination of a single MLLM agent, we decompose this
stage to four sequentially-executed MLLM-based agents: verification agent,
suggestion agent, correction agent, and output structuring agent. Furthermore,
to tackle diverse scenarios of compositional text-to-video generation, we
design a self-routing mechanism to adaptively select the proper correction
agent from a collection of correction agents each specialized for one scenario.
Extensive experiments demonstrate the effectiveness of GenMAC, achieving
state-of-the art performance in compositional text-to-video generation.Summary
AI-Generated Summary