ChatPaper.aiChatPaper

Управление движением для улучшенного создания видео сложных действий.

Motion Control for Enhanced Complex Action Video Generation

November 13, 2024
Авторы: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI

Аннотация

Существующие модели текст-видео (T2V) часто испытывают затруднения при создании видеороликов с достаточно выраженными или сложными действиями. Одним из основных ограничений является неспособность текстового подсказа точно передать сложные детали движения. Для решения этой проблемы мы предлагаем новую структуру, MVideo, разработанную для создания видеороликов большой продолжительности с точными, плавными действиями. MVideo преодолевает ограничения текстовых подсказов, интегрируя последовательности масок в качестве дополнительного входа для условий движения, обеспечивая более ясное, точное представление задуманных действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, улучшая как эффективность, так и надежность. Наши результаты показывают, что после обучения MVideo эффективно выравнивает текстовые подсказы с условиями движения для создания видеороликов, которые одновременно удовлетворяют оба критерия. Этот двойной механизм управления позволяет более динамично генерировать видеоролики, позволяя изменять как текстовую подсказку, так и условие движения независимо друг от друга или совместно. Более того, MVideo поддерживает редактирование и компоновку условий движения, облегчая создание видеороликов с более сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая сильный стандарт для улучшения изображения действий в текущих моделях диффузии видео. Наша страница проекта доступна по адресу https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Summary

AI-Generated Summary

PDF52November 14, 2024