Управление движением для улучшенного создания видео сложных действий.
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
Авторы: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
Аннотация
Существующие модели текст-видео (T2V) часто испытывают затруднения при создании видеороликов с достаточно выраженными или сложными действиями. Одним из основных ограничений является неспособность текстового подсказа точно передать сложные детали движения. Для решения этой проблемы мы предлагаем новую структуру, MVideo, разработанную для создания видеороликов большой продолжительности с точными, плавными действиями. MVideo преодолевает ограничения текстовых подсказов, интегрируя последовательности масок в качестве дополнительного входа для условий движения, обеспечивая более ясное, точное представление задуманных действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, улучшая как эффективность, так и надежность. Наши результаты показывают, что после обучения MVideo эффективно выравнивает текстовые подсказы с условиями движения для создания видеороликов, которые одновременно удовлетворяют оба критерия. Этот двойной механизм управления позволяет более динамично генерировать видеоролики, позволяя изменять как текстовую подсказку, так и условие движения независимо друг от друга или совместно. Более того, MVideo поддерживает редактирование и компоновку условий движения, облегчая создание видеороликов с более сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая сильный стандарт для улучшения изображения действий в текущих моделях диффузии видео. Наша страница проекта доступна по адресу https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary