協調的ビデオ拡散:カメラ制御を伴う一貫性のある複数ビデオ生成
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
May 27, 2024
著者: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI
要旨
ビデオ生成に関する研究は近年大きな進歩を遂げ、テキストプロンプトや画像から高品質なビデオを生成することが可能になりました。ビデオ生成プロセスに制御を加えることは今後の重要な目標であり、カメラ軌跡に基づいてビデオ生成モデルを条件付ける最近のアプローチは、その方向に向けた大きな一歩です。しかし、同じシーンを複数の異なるカメラ軌跡から生成することは依然として困難です。このマルチビデオ生成問題の解決策は、編集可能なカメラ軌跡を持つ大規模な3Dシーン生成など、さまざまな応用を可能にするでしょう。我々は、このビジョンに向けた重要な一歩として、協調的ビデオ拡散(Collaborative Video Diffusion, CVD)を提案します。CVDフレームワークには、エピポーラ注意機構を使用して、異なるカメラポーズからレンダリングされた同じビデオの対応するフレーム間の一貫性を促進する新しいクロスビデオ同期モジュールが含まれています。最先端のカメラ制御モジュールを基盤として訓練されたCVDは、ベースラインよりも大幅に優れた一貫性で、異なるカメラ軌跡からレンダリングされた複数のビデオを生成します。これは、広範な実験によって示されています。プロジェクトページ: https://collaborativevideodiffusion.github.io/
English
Research on video generation has recently made tremendous progress, enabling
high-quality videos to be generated from text prompts or images. Adding control
to the video generation process is an important goal moving forward and recent
approaches that condition video generation models on camera trajectories make
strides towards it. Yet, it remains challenging to generate a video of the same
scene from multiple different camera trajectories. Solutions to this
multi-video generation problem could enable large-scale 3D scene generation
with editable camera trajectories, among other applications. We introduce
collaborative video diffusion (CVD) as an important step towards this vision.
The CVD framework includes a novel cross-video synchronization module that
promotes consistency between corresponding frames of the same video rendered
from different camera poses using an epipolar attention mechanism. Trained on
top of a state-of-the-art camera-control module for video generation, CVD
generates multiple videos rendered from different camera trajectories with
significantly better consistency than baselines, as shown in extensive
experiments. Project page: https://collaborativevideodiffusion.github.io/.