Modelo de Mundo Estéreo: Geração de Vídeo Estéreo Guiada por Câmera

Resumo

Apresentamos o StereoWorld, um modelo de mundo estéreo condicionado por câmera que aprende conjuntamente a aparência e a geometria binocular para a geração de vídeo estéreo de ponta a ponta. Diferente das abordagens monocromáticas RGB ou RGBD, o StereoWorld opera exclusivamente dentro da modalidade RGB, enquanto ancora a geometria diretamente a partir da disparidade. Para alcançar eficientemente uma geração estéreo consistente, nossa abordagem introduz dois projetos-chave: (1) um RoPE unificado no quadro da câmera que aumenta os tokens latentes com codificação posicional rotativa consciente da câmera, permitindo um condicionamento relativo, consistente em vista e tempo, enquanto preserva prévias de vídeo pré-treinadas por meio de uma inicialização de atenção estável; e (2) uma decomposição de atenção consciente do estéreo que fatora a atenção 4D completa em atenção intra-visão 3D mais atenção horizontal por linha, aproveitando a prévia epipolar para capturar correspondências alinhadas por disparidade com um custo computacional substancialmente menor. Em benchmarks, o StereoWorld melhora a consistência estéreo, a precisão da disparidade e a fidelidade do movimento da câmera em relação a fortes pipelines do tipo "monocular-e-depois-converter", alcançando uma geração mais de 3x mais rápida com um ganho adicional de 5% na consistência do ponto de vista. Além dos benchmarks, o StereoWorld possibilita a renderização binocular de RV de ponta a ponta sem estimativa de profundidade ou preenchimento, aprimora o aprendizado de políticas corporificadas por meio da ancoragem de profundidade em escala métrica, e é compatível com a destilação de vídeos longos para síntese estéreo interativa estendida.

English

We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.

Modelo de Mundo Estéreo: Geração de Vídeo Estéreo Guiada por Câmera

Stereo World Model: Camera-Guided Stereo Video Generation

Resumo

Support