VD3D: 大規模ビデオ拡散トランスフォーマーを3Dカメラ制御に適応させる
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
著者: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
要旨
現代のテキストからビデオを生成するモデルは、テキスト記述から複雑なビデオを一貫性があり、写真のようにリアルに生成する能力を示しています。しかし、既存のモデルの多くは、カメラの動きに対する細かい制御が欠けており、これはコンテンツ制作、視覚効果、3Dビジョンに関連する下流アプリケーションにとって重要です。最近、新しい手法が登場し、制御可能なカメラポーズでビデオを生成する能力を示しています。これらの技術は、空間と時間の生成を明示的に分離する事前学習済みのU-Netベースの拡散モデルを活用しています。それでも、空間と時間の情報を共同で処理する新しいトランスフォーマーベースのビデオ拡散モデルに対するカメラ制御を可能にする既存のアプローチはありません。ここでは、Plucker座標に基づく時空間カメラ埋め込みを組み込んだControlNetのような条件付けメカニズムを使用して、3Dカメラ制御のためのビデオトランスフォーマーを制御することを提案します。このアプローチは、RealEstate10Kデータセットでの微調整後に、制御可能なビデオ生成において最先端のパフォーマンスを示します。私たちの知る限り、この研究はトランスフォーマーベースのビデオ拡散モデルに対するカメラ制御を可能にする最初の試みです。
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.Summary
AI-Generated Summary