Modelo de Mundo Estéreo: Generación de Vídeo Estéreo Guiada por Cámara
Stereo World Model: Camera-Guided Stereo Video Generation
March 18, 2026
Autores: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi
cs.AI
Resumen
Presentamos StereoWorld, un modelo del mundo estéreo condicionado por cámara que aprende conjuntamente la apariencia y la geometría binocular para la generación end-to-end de vídeo estéreo. A diferencia de los enfoques monoculares RGB o RGBD, StereoWorld opera exclusivamente dentro de la modalidad RGB, mientras que fundamenta la geometría directamente a partir de la disparidad. Para lograr una generación estéreo consistente de manera eficiente, nuestro enfoque introduce dos diseños clave: (1) un RoPE unificado en el sistema de coordenadas de la cámara que aumenta los tokens latentes con una codificación posicional rotatoria consciente de la cámara, permitiendo un condicionamiento relativo, consistente en vista y tiempo mientras preserva *priors* de vídeo preentrenados mediante una inicialización estable de la atención; y (2) una descomposición de la atención consciente del estéreo que factoriza la atención 4D completa en atención 3D intra-vista más atención horizontal por filas, aprovechando la restricción epipolar para capturar correspondencias alineadas con la disparidad con un coste computacional sustancialmente menor. En varios *benchmarks*, StereoWorld mejora la consistencia estéreo, la precisión de la disparidad y la fidelidad del movimiento de cámara frente a potentes pipelines de conversión a partir de señales monoculares, logrando una generación más de 3 veces más rápida con una ganancia adicional del 5% en la consistencia del punto de vista. Más allá de los *benchmarks*, StereoWorld permite la renderización binocular de realidad virtual end-to-end sin estimación de profundidad o *inpainting*, mejora el aprendizaje de políticas de agentes embodidos mediante la fundamentación de la profundidad a escala métrica, y es compatible con la destilación de vídeos largos para una síntesis estéreo interactiva extendida.
English
We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.