WorldStereo: 3D幾何学的メモリを介したカメラ誘導型ビデオ生成とシーン再構築の連携
WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
March 2, 2026
著者: Yisu Zhang, Chenjie Cao, Tengfei Wang, Xuhui Zuo, Junta Wu, Jianke Zhu, Chunchao Guo
cs.AI
要旨
基礎的なビデオ拡散モデル(VDM)の最近の進展は、著しい進歩をもたらしている。しかし、生成されたビデオの視覚的品質が非常に高いにもかかわらず、これらの出力から一貫性のある3Dシーンを再構築することは、カメラ制御性の限界や、異なるカメラ軌道から見た場合の生成コンテンツの不一致により、依然として困難な課題である。本論文では、カメラ誘導型ビデオ生成と3D再構築を、2つの専用幾何学メモリモジュールを介して橋渡しする新しいフレームワーク「WorldStereo」を提案する。形式的には、大域幾何メモリは、段階的に更新される点群を通じて粗い構造的プリオールを注入しながら、精密なカメラ制御を可能にする。さらに、空間ステレオメモリは、3D対応関係を用いてモデルの注意受容野を制約し、メモリバンクからの微細な詳細に焦点を当てる。これらの構成要素により、WorldStereoは精密なカメラ制御の下でマルチビュー一貫性のあるビデオを生成し、高品質な3D再構築を容易にする。さらに、柔軟な制御ブランチベースのWorldStereoは、共同訓練を必要とせず、分布マッチング蒸留されたVDMバックボーンから恩恵を受けることで、印象的な効率性を示す。カメラ誘導型ビデオ生成と3D再構築の両方のベンチマークにおける広範な実験は、本手法の有効性を実証している。特に、WorldStereoが強力な世界モデルとして機能し、多様なシーン生成タスク(透視画像またはパノラマ画像のいずれから開始する場合でも)を高精細な3D結果をもって扱うことを示す。モデルは公開予定である。
English
Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.