GenMAC: Композиционная генерация текста в видео с многовекторным сотрудничеством.
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
December 5, 2024
Авторы: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI
Аннотация
Модели генерации видео по тексту продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамичных сцен на основе композиционных текстовых подсказок, таких как привязка атрибутов для нескольких объектов, временная динамика, связанная с различными объектами, и взаимодействие между объектами. Нашей основной мотивацией является то, что сложные задачи могут быть разложены на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта для сложных целей. Мы предлагаем GenMAC, итеративную мультиагентную структуру, которая позволяет композиционной генерации видео по тексту. Совместный рабочий процесс включает три этапа: Проектирование, Генерация и Переработка, с итеративным циклом между этапами Генерации и Переработки для постепенной проверки и улучшения созданных видео. Этап Переработки является наиболее сложным этапом, который направлен на проверку созданных видео, предложение коррекций и переработку текстовых подсказок, макетов кадров и масштабов руководства для следующей итерации генерации. Чтобы избежать галлюцинаций отдельного агента MLLM, мы декомпозируем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложения, агент коррекции и агент структурирования вывода. Более того, чтобы справиться с разнообразными сценариями композиционной генерации видео по тексту, мы разрабатываем механизм саморегулирования для адаптивного выбора соответствующего агента коррекции из коллекции агентов коррекции, каждый из которых специализируется на одном сценарии. Обширные эксперименты демонстрируют эффективность GenMAC, достигая передового уровня производительности в композиционной генерации видео по тексту.
English
Text-to-video generation models have shown significant progress in the recent
years. However, they still struggle with generating complex dynamic scenes
based on compositional text prompts, such as attribute binding for multiple
objects, temporal dynamics associated with different objects, and interactions
between objects. Our key motivation is that complex tasks can be decomposed
into simpler ones, each handled by a role-specialized MLLM agent. Multiple
agents can collaborate together to achieve collective intelligence for complex
goals. We propose GenMAC, an iterative, multi-agent framework that enables
compositional text-to-video generation. The collaborative workflow includes
three stages: Design, Generation, and Redesign, with an iterative loop between
the Generation and Redesign stages to progressively verify and refine the
generated videos. The Redesign stage is the most challenging stage that aims to
verify the generated videos, suggest corrections, and redesign the text
prompts, frame-wise layouts, and guidance scales for the next iteration of
generation. To avoid hallucination of a single MLLM agent, we decompose this
stage to four sequentially-executed MLLM-based agents: verification agent,
suggestion agent, correction agent, and output structuring agent. Furthermore,
to tackle diverse scenarios of compositional text-to-video generation, we
design a self-routing mechanism to adaptively select the proper correction
agent from a collection of correction agents each specialized for one scenario.
Extensive experiments demonstrate the effectiveness of GenMAC, achieving
state-of-the art performance in compositional text-to-video generation.Summary
AI-Generated Summary