StereoWorld: 기하 구조 인식 모노큘러-스테레오 비디오 생성
StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
December 10, 2025
저자: Ke Xing, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Xiaojie Jin, Yao Zhao, Yunchao Wei
cs.AI
초록
XR 기기의 폭넓은 보급으로 고품질 스테레오 영상에 대한 수요가 급증하고 있으나, 여전히 제작 비용이 높고 아티팩트 발생 가능성이 큰 실정입니다. 이러한 문제를 해결하기 위해 본 논문에서는 사전 훈련된 비디오 생성기를 고화질 단안-스테레오 비디오 생성으로 전용(轉用)하는 end-to-end 프레임워크인 StereoWorld를 제안합니다. 우리의 프레임워크는 단안 비디오 입력을 모델에 공동으로 조건화하는 동시에 3D 구조적 정확도를 보장하기 위해 기하학적 인식 정규화를 통해 생성 과정을 명시적으로 지도합니다. 또한 시공간 타일링 기법을 통합하여 효율적인 고해상도 합성이 가능하도록 했습니다. 대규모 학습 및 평가를 위해 자연스러운 인간 동공 간격(IPD)에 정렬된 1,100만 프레임 이상의 고화질 스테레오 비디오 데이터셋을 구축했습니다. 폭넓은 실험을 통해 StereoWorld가 기존 방법을 크게 능가하며 우수한 시각적 충실도와 기하학적 일관성을 지닌 스테레오 영상을 생성함을 입증했습니다. 프로젝트 웹페이지는 https://ke-xing.github.io/StereoWorld/에서 확인할 수 있습니다.
English
The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.