StereoWorld: 幾何情報を考慮した単眼映像からステレオ映像への生成
StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
December 10, 2025
著者: Ke Xing, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Xiaojie Jin, Yao Zhao, Yunchao Wei
cs.AI
要旨
XRデバイスの普及拡大に伴い、高品質なステレオ動画への需要が高まっているが、その制作は依然としてコストが高く、アーティファクトが発生しやすい課題がある。この課題に対処するため、我々は事前学習済みの動画生成モデルを高精細な単眼映像からステレオ映像への変換に応用するエンドツーエンドフレームワーク「StereoWorld」を提案する。本フレームワークは、単眼映像入力をモデルに同時条件付けするとともに、3D構造の忠実性を確保するための幾何学的正則化を明示的に適用して生成を監督する。さらに、時空間タイル分割方式を統合することで、効率的な高解像度合成を実現している。大規模な学習と評価を可能にするため、自然な人間の瞳孔間距離(IPD)に合わせた1,100万フレーム以上の高精細ステレオ動画データセットを構築した。大規模な実験により、StereoWorldが従来手法を大幅に上回り、視覚的忠実性と幾何学的一貫性に優れたステレオ動画を生成することを実証した。プロジェクトウェブページはhttps://ke-xing.github.io/StereoWorld/で公開されている。
English
The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.