Modèle de Monde Stéréo : Génération de Vidéos Stéréoscopiques Guidée par Caméra
Stereo World Model: Camera-Guided Stereo Video Generation
March 18, 2026
Auteurs: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi
cs.AI
Résumé
Nous présentons StereoWorld, un modèle stéréoscopique conditionné par caméra qui apprend conjointement l'apparence et la géométrie binoculaire pour la génération stéréoscopique vidéo de bout en bout. Contrairement aux approches monoculaires RVB ou RVBD, StereoWorld fonctionne exclusivement dans la modalité RVB, tout en ancrant directement la géométrie à partir de la disparité. Pour réaliser efficacement une génération stéréoscopique cohérente, notre approche introduit deux conceptions clés : (1) un RoPE unifié dans le repère caméra qui enrichit les tokens latents avec un encodage positionnel rotatif conscient de la caméra, permettant un conditionnement relatif, cohérent en vue et dans le temps tout en préservant les pré-entraînements vidéo via une initialisation stable de l'attention ; et (2) une décomposition de l'attention stéréo-aware qui factorise l'attention 4D complète en une attention 3D intra-vue plus une attention horizontale par ligne, exploitant la contrainte épipolaire pour capturer des correspondances alignées sur la disparité avec une puissance de calcul substantiellement réduite. Sur divers benchmarks, StereoWorld améliore la cohérence stéréoscopique, la précision de la disparité et la fidélité du mouvement de caméra par rapport aux solides pipelines monoculaires puis convertis, réalisant une génération plus de 3 fois plus rapide avec un gain supplémentaire de 5 % en cohérence du point de vue. Au-delà des benchmarks, StereoWorld permet le rendu binoculaire RV de bout en bout sans estimation de profondeur ni inpainting, améliore l'apprentissage de politiques embodiées grâce à un ancrage métrique de la profondeur, et est compatible avec la distillation vidéo longue pour une synthèse stéréoscopique interactive étendue.
English
We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.