Modello Mondiale Stereo: Generazione di Video Stereo Guidata da Telecamera

Abstract

Presentiamo StereoWorld, un modello del mondo stereo condizionato da telecamera che apprende congiuntamente l'aspetto visivo e la geometria binoculare per la generazione end-to-end di video stereo. A differenza degli approcci monoculari RGB o RGBD, StereoWorld opera esclusivamente nella modalità RGB, fondando simultaneamente la geometria direttamente dalla disparità. Per ottenere in modo efficiente una generazione stereo coerente, il nostro approccio introduce due elementi chiave: (1) un RoPE unificato nel frame della telecamera che arricchisce i token latenti con una codifica posizionale rotazionale consapevole della telecamera, abilitando un condizionamento relativo, coerente rispetto alla vista e al tempo, preservando al contempo i pre-training di video tramite un'inizializzazione stabile dell'attenzione; e (2) una scomposizione dell'attenzione stereo-aware che scompone l'attenzione 4D completa in un'attenzione 3D intra-vista più un'attenzione orizzontale per riga, sfruttando il priore epipolare per catturare corrispondenze allineate alla disparità con un calcolo sostanzialmente inferiore. Sui benchmark, StereoWorld migliora la coerenza stereo, l'accuratezza della disparità e la fedeltà del movimento della telecamera rispetto a robuste pipeline "monoculare-e-poi-converti", raggiungendo una generazione più di 3 volte più veloce con un ulteriore guadagno del 5% nella coerenza del punto di vista. Oltre i benchmark, StereoWorld abilita il rendering binoculare VR end-to-end senza stima della profondità o inpaint-ing, migliora l'apprendimento di policy embodied attraverso l'ancoraggio metrico della profondità ed è compatibile con la distillazione di video lunghi per una sintesi stereo interattiva estesa.

English

We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.

Modello Mondiale Stereo: Generazione di Video Stereo Guidata da Telecamera

Stereo World Model: Camera-Guided Stereo Video Generation

Abstract

Support