SynCamMaster:多様な視点からのマルチカメラビデオ生成の同期
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
著者: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
要旨
最近のビデオ拡散モデルの進歩により、現実世界のダイナミクスをシミュレートし、3Dの一貫性を維持する能力が非常に優れていることが示されています。この進歩は、これらのモデルの潜在能力を調査し、仮想撮影などのアプリケーションにとって非常に望ましい特徴であるさまざまな視点での動的一貫性を確保する可能性を私たちに示唆しています。4D再構築のための単一オブジェクトの多視点生成に焦点を当てた既存の手法とは異なり、私たちの関心は、任意の視点からのオープンワールドビデオの生成にあり、6 DoFカメラポーズを組み込んでいます。これを実現するために、事前にトレーニングされたテキストからビデオへのモデルを拡張するプラグアンドプレイモジュールを提案し、マルチカメラビデオ生成のために一貫したコンテンツを異なる視点で確保します。具体的には、外観とジオメトリの一貫性をこれらの視点で維持するためのマルチビュー同期モジュールを導入します。高品質なトレーニングデータが不足していることから、Unreal Engineでレンダリングされたマルチカメラビデオを補完するために、マルチカメラ画像と単眼ビデオを活用するハイブリッドトレーニングスキームを設計しています。さらに、私たちの手法は、新しい視点からビデオを再レンダリングするなどの興味深い拡張を可能にします。また、SynCamVideo-Datasetと名付けられたマルチビュー同期ビデオデータセットを公開しています。プロジェクトページ: https://jianhongbai.github.io/SynCamMaster/。
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.Summary
AI-Generated Summary