Stereo Wereldmodel: Camera-Gestuurde Stereoscopische Videogeneratie
Stereo World Model: Camera-Guided Stereo Video Generation
March 18, 2026
Auteurs: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi
cs.AI
Samenvatting
Wij presenteren StereoWorld, een camerageconditioneerd stereo-wereldmodel dat zowel beeldweergave als binoculaire geometrie gezamenlijk aanleert voor end-to-end stereovideogeneratie. In tegenstelling tot monocular RGB- of RGBD-benaderingen opereert StereoWorld uitsluitend binnen de RGB-modaliteit, terwijl het tegelijkertijd geometrie direct vanuit dispariteit verankert. Om efficiënt consistente stereogeneratie te bereiken, introduceert onze aanpak twee belangrijke ontwerpen: (1) een verenigde camera-frame RoPE die latentetokens uitbreidt met camerabewuste rotatiepositiecodering, waardoor relatieve, viewpoint- en tijdconsistente conditionering mogelijk wordt terwijl voorgetrainde videopriors behouden blijven via een stabiele aandachtinitialisatie; en (2) een stereobewuste aandachtdecompositie die volledige 4D-aandacht factoriseert in 3D intra-view aandacht plus horizontale rij-aandacht, waarbij epipolaire prior wordt benut om dispariteit-uitgelijnde correspondenties vast te leggen met aanzienlijk minder rekenkracht. Op benchmarks verbetert StereoWorld stereoconsistentie, dispariteitsnauwkeurigheid en camerabewegingsgetrouwheid ten opzichte van sterke monocular-then-convert pijplijnen, met meer dan 3x snellere generatie en een extra 5% verbetering in viewpointconsistentie. Naast benchmarks maakt StereoWorld end-to-end binoculair VR-rendering mogelijk zonder diepteschatting of inpaintin, verbetert het embodied policy learning door metrieke diepteverankering, en is het compatibel met lange-video-distillatie voor uitgebreide interactieve stereosynthese.
English
We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.