ステレオ世界モデル:カメラ誘導型ステレオ映像生成
Stereo World Model: Camera-Guided Stereo Video Generation
March 18, 2026
著者: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi
cs.AI
要旨
本論文では、カメラ条件付きステレオワールドモデルであるStereoWorldを提案する。これは、ステレオビデオのエンドツーエンド生成のために、外観と両眼幾何学を共同で学習する。単眼RGBまたはRGBDアプローチとは異なり、StereoWorldはRGBモダリティ内でのみ動作し、幾何学を視差から直接接地する。一貫性のあるステレオ生成を効率的に達成するため、我々のアプローチは2つの重要な設計を導入する:(1)潜在トークンをカメラを考慮したロータリ位置符号化で拡張する統一カメラフレームRoPE。これにより、事前学習済みビデオ事前分布を安定した注意機構の初期化により維持しつつ、相対的で視点・時間整合性のある条件付けを実現する。(2)完全な4D注意を3Dの視点内注意と水平行注意に分解するステレオ対応注意分解。これにより、エピポーラ事前知識を活用して視差に整合した対応関係を捕捉し、計算量を大幅に削減する。各種ベンチマークにおいて、StereoWorldは、強力な「単眼生成→変換」パイプラインと比較して、ステレオ一貫性、視差精度、カメラ動作の忠実度を改善し、3倍以上の高速な生成を実現するとともに、視点一貫性でさらに5%の向上を達成する。ベンチマークを超えて、StereoWorldは深度推定やインペインティングなしでのエンドツーエンドの両眼VRレンダリングを可能にし、メートル尺度の深度接地による具身化ポリシー学習を強化し、長尺ビデオ蒸留との互換性により拡張された対話的ステレオ合成を実現する。
English
We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.