ChatPaper.aiChatPaper

Direct-a-Video: ユーザー主導のカメラ移動と物体運動を伴うカスタムビデオ生成

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

February 5, 2024
著者: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI

要旨

最近のテキストからビデオへの拡散モデルは、目覚ましい進歩を遂げています。実際には、ユーザーはカスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御する能力を望むことがよくあります。しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離して制御することに焦点が当てられておらず、これがテキストからビデオモデルの制御性と柔軟性を制限しています。本論文では、ユーザーが1つまたは複数のオブジェクトの動きやカメラの動きを独立して指定できるシステム、Direct-a-Videoを紹介します。これは、あたかもビデオを監督するかのように動作します。私たちは、オブジェクトの動きとカメラの動きを分離して制御するためのシンプルでありながら効果的な戦略を提案します。オブジェクトの動きは、モデルの内在的な事前知識を使用した空間的クロスアテンションモジュレーションによって制御され、追加の最適化を必要としません。カメラの動きについては、定量的なカメラ移動パラメータを解釈するための新しい時間的クロスアテンションレイヤーを導入します。さらに、これらのレイヤーを小規模データセット上で自己教師あり方式で訓練するための拡張ベースのアプローチを採用し、明示的な動きのアノテーションを不要にします。両コンポーネントは独立して動作し、個別または組み合わせた制御が可能で、オープンドメインのシナリオにも一般化できます。広範な実験により、私たちの手法の優位性と有効性が実証されています。プロジェクトページ: https://direct-a-video.github.io/。
English
Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for one or multiple objects and/or camera movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page: https://direct-a-video.github.io/.
PDF191December 15, 2024