複雑なアクションビデオ生成のためのモーションコントロール
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
著者: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
要旨
既存のテキストからビデオ(T2V)モデルは、十分に際立ったまたは複雑なアクションを生成するのにしばしば苦労しています。主な制限は、テキストプロンプトが複雑な動きの詳細を正確に伝えることができないことにあります。この問題に対処するために、私たちは長時間のビデオを正確で流れるようなアクションを生成するために設計された革新的なフレームワーク、MVideoを提案します。MVideoは、追加のモーション条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服し、意図されたアクションのより明確で正確な表現を提供します。GroundingDINOやSAM2などの基本的なビジョンモデルを活用することで、MVideoは自動的にマスクシーケンスを生成し、効率性と堅牢性の両方を向上させます。私たちの結果は、トレーニング後、MVideoが効果的にテキストプロンプトをモーション条件と整合させ、両方の基準を同時に満たすビデオを生成することを示しています。この二重制御メカニズムにより、テキストプロンプトまたはモーション条件のどちらかを独立して、または両方を同時に変更することで、よりダイナミックなビデオ生成が可能となります。さらに、MVideoはモーション条件の編集と組み合わせをサポートし、より複雑なアクションを持つビデオの生成を容易にします。したがって、MVideoはT2Vモーション生成を前進させ、現在のビデオ拡散モデルにおけるアクション描写の向上のための強力な基準を設定します。私たちのプロジェクトページは、https://mvideo-v1.github.io/ でご覧いただけます。
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary