SynCamMaster:多様な視点からのマルチカメラビデオ生成の同期SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse
Viewpoints
最近のビデオ拡散モデルの進歩により、現実世界のダイナミクスをシミュレートし、3Dの一貫性を維持する能力が非常に優れていることが示されています。この進歩は、これらのモデルの潜在能力を調査し、仮想撮影などのアプリケーションにとって非常に望ましい特徴であるさまざまな視点での動的一貫性を確保する可能性を私たちに示唆しています。4D再構築のための単一オブジェクトの多視点生成に焦点を当てた既存の手法とは異なり、私たちの関心は、任意の視点からのオープンワールドビデオの生成にあり、6 DoFカメラポーズを組み込んでいます。これを実現するために、事前にトレーニングされたテキストからビデオへのモデルを拡張するプラグアンドプレイモジュールを提案し、マルチカメラビデオ生成のために一貫したコンテンツを異なる視点で確保します。具体的には、外観とジオメトリの一貫性をこれらの視点で維持するためのマルチビュー同期モジュールを導入します。高品質なトレーニングデータが不足していることから、Unreal Engineでレンダリングされたマルチカメラビデオを補完するために、マルチカメラ画像と単眼ビデオを活用するハイブリッドトレーニングスキームを設計しています。さらに、私たちの手法は、新しい視点からビデオを再レンダリングするなどの興味深い拡張を可能にします。また、SynCamVideo-Datasetと名付けられたマルチビュー同期ビデオデータセットを公開しています。プロジェクトページ: https://jianhongbai.github.io/SynCamMaster/。