스테레오 월드 모델: 카메라 기반 스테레오 비디오 생성
Stereo World Model: Camera-Guided Stereo Video Generation
March 18, 2026
저자: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi
cs.AI
초록
저희는 스테레오 비디오 생성을 위한 종단간(end-to-end) 방식으로 외관(appearance)과 양안 기하구조(binocular geometry)를 함께 학습하는 카메라 조건부 스테레오 월드 모델인 StereoWorld를 제안합니다. 단안 RGB 또는 RGBD 접근법과 달리, StereoWorld는 RGB 양상(modality)만을 사용하면서도 기하구조를 직접 disparity(시차)로부터 정착(grounding)합니다. 일관된 스테레오 생성을 효율적으로 달성하기 위해 우리의 접근법은 두 가지 핵심 설계를 도입합니다: (1) 잠재 토큰(latent tokens)에 카메라 인식 회전 위치 인코딩(camera-aware rotary positional encoding)을 강화하여 상대적, 뷰 및 시간 일관성 조건화(view- and time-consistent conditioning)를 가능하게 하면서도 안정적인 어텐션 초기화를 통해 사전 학습된 비디오 사전 지식(pretrained video priors)을 보존하는 통합 카메라 프레임 RoPE(unified camera-frame RoPE); (2) 완전 4D 어텐션(full 4D attention)을 3D 뷰 내 어텐션(3D intra-view attention)과 수평 행 어텐션(horizontal row attention)으로 분해하는 스테레오 인식 어텐션 분해(stereo-aware attention decomposition)로, 에피폴라 사전 지식(epipolar prior)을 활용하여 상당히 낮은 계산량으로 disparity에 정렬된 대응 관계(disparity-aligned correspondences)를 포착합니다. 다양한 벤치마크에서 StereoWorld는 강력한 단안-생성-후-변환(monocular-then-convert) 파이프라인 대비 스테레오 일관성, disparity 정확도 및 카메라 운동 정밀도(camera-motion fidelity)를 향상시켜, 시점 일관성(viewpoint consistency)에서 추가 5% 향상과 함께 3배 이상 빠른 생성을 달성합니다. 벤치마크를 넘어, StereoWorld는 깊이 추정이나 인페인팅(inpainting) 없이도 종단간 양안 VR 렌더링을 가능하게 하며, 미터 단위 깊이 정착(metric-scale depth grounding)을 통해 구현된 정책 학습(embodied policy learning)을 강화하고, 확장된 상호작용형 스테레오 합성을 위한 장시간 비디오 증류(long-video distillation)와 호환됩니다.
English
We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.