ChatPaper.aiChatPaper

動き誘導:動き軌跡でビデオ生成を制御する

Motion Prompting: Controlling Video Generation with Motion Trajectories

December 3, 2024
著者: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI

要旨

動き制御は表現豊かで魅力的なビデオコンテンツを生成するために重要ですが、ほとんどの既存のビデオ生成モデルは主にテキストプロンプトに依存しており、動的なアクションや時間的な構成のニュアンスを捉えるのに苦労しています。このため、空間的・時間的にまばらまたは密な動き軌跡に依存するビデオ生成モデルを訓練します。従来の動き条件付け作業とは対照的に、この柔軟な表現は任意の数の軌跡、オブジェクト固有またはグローバルなシーンの動き、時間的にまばらな動きをエンコードできます。その柔軟性から、この条件付けを動きプロンプトと呼びます。ユーザーはまばらな軌跡を直接指定することができますが、高レベルなユーザー要求を詳細で半密な動きプロンプトに変換する方法も示し、このプロセスを動きプロンプト拡張と呼びます。カメラやオブジェクトの動き制御、画像との「相互作用」、動き転送、画像編集など、さまざまなアプリケーションを通じてアプローチの汎用性を実証します。私たちの結果は、現実的な物理学などの新興動作を示し、動きプロンプトがビデオモデルを探索し、将来の生成ワールドモデルと相互作用する可能性を示唆しています。最後に、定量評価を行い、ヒューマンスタディを実施し、強力なパフォーマンスを示します。ビデオの結果は当社のウェブページでご覧いただけます:https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video content; however, most existing video generation models rely mainly on text prompts for control, which struggle to capture the nuances of dynamic actions and temporal compositions. To this end, we train a video generation model conditioned on spatio-temporally sparse or dense motion trajectories. In contrast to prior motion conditioning work, this flexible representation can encode any number of trajectories, object-specific or global scene motion, and temporally sparse motion; due to its flexibility we refer to this conditioning as motion prompts. While users may directly specify sparse trajectories, we also show how to translate high-level user requests into detailed, semi-dense motion prompts, a process we term motion prompt expansion. We demonstrate the versatility of our approach through various applications, including camera and object motion control, "interacting" with an image, motion transfer, and image editing. Our results showcase emergent behaviors, such as realistic physics, suggesting the potential of motion prompts for probing video models and interacting with future generative world models. Finally, we evaluate quantitatively, conduct a human study, and demonstrate strong performance. Video results are available on our webpage: https://motion-prompting.github.io/

Summary

AI-Generated Summary

PDF152December 4, 2024