Stereo World Model: Kamera-geführte Stereo-Videogenerierung
Stereo World Model: Camera-Guided Stereo Video Generation
March 18, 2026
Autoren: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi
cs.AI
Zusammenfassung
Wir stellen StereoWorld vor, ein kamera-konditioniertes Stereo-Weltmodell, das Erscheinungsbild und binokulare Geometrie für end-to-end Stereo-Videogenerierung gemeinsam erlernt. Im Gegensatz zu monokularen RGB- oder RGBD-Ansätzen arbeitet StereoWorld ausschließlich innerhalb der RGB-Modalität, während es Geometrie direkt aus der Disparität ableitet. Um konsistente Stereo-Generierung effizient zu erreichen, führt unser Ansatz zwei Schlüsseldesigns ein: (1) eine einheitliche Kamerarahmen-RoPE, die latente Tokens mit kamera-aware rotary positional encoding erweitert und so relative, blickpunkt- und zeitkonsistente Konditionierung ermöglicht, während vortrainierte Video-Priors durch eine stabile Attention-Initialisierung bewahrt werden; und (2) eine stereo-aware Attention-Zerlegung, die volle 4D-Attention in 3D-Intra-View-Attention plus horizontale Zeilen-Attention faktorisiert, indem sie die epipolare Voraussetzung nutzt, um disparitätsausgerichtete Korrespondenzen mit deutlich geringerer Rechenlast zu erfassen. In Benchmarks verbessert StereoWorld die Stereo-Konsistenz, Disparitätsgenauigkeit und Kamerabewegungstreue gegenüber starken Monokular-dann-Konvertier-Pipelines und erreicht mehr als 3-mal schnellere Generierung mit einem zusätzlichen Gewinn von 5 % in der Blickpunktkonsistenz. Über Benchmarks hinaus ermöglicht StereoWorld end-to-end binokulares VR-Rendering ohne Tiefenschätzung oder Inpainting, verbessert das Lernen verkörperter Politik durch metrische Tiefenverankerung und ist kompatibel mit Langvideo-Distillation für erweiterte interaktive Stereo-Synthese.
English
We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.