CameraCtrl: テキストから動画生成におけるカメラ制御の実現
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
April 2, 2024
著者: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI
要旨
制御可能性は、ユーザーが望むコンテンツを作成できるようにするため、ビデオ生成において重要な役割を果たします。しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画的な言語として機能するカメラポーズの精密な制御をほとんど考慮していませんでした。この問題を解決するため、私たちはCameraCtrlを導入し、テキストからビデオ(T2V)モデルに対する正確なカメラポーズ制御を可能にします。カメラ軌跡を精密にパラメータ化した後、プラグアンドプレイのカメラモジュールをT2Vモデル上でトレーニングし、他の部分はそのままにします。さらに、さまざまなデータセットの影響に関する包括的な研究も行い、多様なカメラ分布と類似した外観を持つビデオが、実際に制御可能性と汎化性能を向上させることを示唆しています。実験結果は、CameraCtrlが精密でドメイン適応的なカメラ制御を達成する有効性を実証し、テキストとカメラポーズの入力から動的でカスタマイズされたビデオストーリーテリングを追求するための一歩前進を示しています。私たちのプロジェクトウェブサイトはこちらです:https://hehao13.github.io/projects-CameraCtrl/。
English
Controllability plays a crucial role in video generation since it allows
users to create desired content. However, existing models largely overlooked
the precise control of camera pose that serves as a cinematic language to
express deeper narrative nuances. To alleviate this issue, we introduce
CameraCtrl, enabling accurate camera pose control for text-to-video(T2V)
models. After precisely parameterizing the camera trajectory, a plug-and-play
camera module is then trained on a T2V model, leaving others untouched.
Additionally, a comprehensive study on the effect of various datasets is also
conducted, suggesting that videos with diverse camera distribution and similar
appearances indeed enhance controllability and generalization. Experimental
results demonstrate the effectiveness of CameraCtrl in achieving precise and
domain-adaptive camera control, marking a step forward in the pursuit of
dynamic and customized video storytelling from textual and camera pose inputs.
Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.Summary
AI-Generated Summary