ChatPaper.aiChatPaper

複雑なアクションビデオ生成のためのモーションコントロール

Motion Control for Enhanced Complex Action Video Generation

November 13, 2024
著者: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI

要旨

既存のテキストからビデオ(T2V)モデルは、十分に際立ったまたは複雑なアクションを生成するのにしばしば苦労しています。主な制限は、テキストプロンプトが複雑な動きの詳細を正確に伝えることができないことにあります。この問題に対処するために、私たちは長時間のビデオを正確で流れるようなアクションを生成するために設計された革新的なフレームワーク、MVideoを提案します。MVideoは、追加のモーション条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服し、意図されたアクションのより明確で正確な表現を提供します。GroundingDINOやSAM2などの基本的なビジョンモデルを活用することで、MVideoは自動的にマスクシーケンスを生成し、効率性と堅牢性の両方を向上させます。私たちの結果は、トレーニング後、MVideoが効果的にテキストプロンプトをモーション条件と整合させ、両方の基準を同時に満たすビデオを生成することを示しています。この二重制御メカニズムにより、テキストプロンプトまたはモーション条件のどちらかを独立して、または両方を同時に変更することで、よりダイナミックなビデオ生成が可能となります。さらに、MVideoはモーション条件の編集と組み合わせをサポートし、より複雑なアクションを持つビデオの生成を容易にします。したがって、MVideoはT2Vモーション生成を前進させ、現在のビデオ拡散モデルにおけるアクション描写の向上のための強力な基準を設定します。私たちのプロジェクトページは、https://mvideo-v1.github.io/ でご覧いただけます。
English
Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Summary

AI-Generated Summary

PDF52November 14, 2024