StereoWorld: Generazione di Video da Monoculare a Stereo con Consapevolezza Geometrica
StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
December 10, 2025
Autori: Ke Xing, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Xiaojie Jin, Yao Zhao, Yunchao Wei
cs.AI
Abstract
La crescente adozione di dispositivi XR ha alimentato una forte domanda di video stereo di alta qualità, la cui produzione rimane tuttavia costosa e soggetta ad artefatti. Per affrontare questa sfida, presentiamo StereoWorld, un framework end-to-end che riadatta un generatore di video preaddestrato per la generazione di video monoculari-stereo ad alta fedeltà. Il nostro framework condiziona congiuntamente il modello sull'input video monoculare, supervisionando esplicitamente la generazione con una regolarizzazione geometrica per garantire la fedeltà strutturale 3D. Uno schema di scomposizione spaziotemporale è inoltre integrato per consentire una sintesi efficiente ad alta risoluzione. Per abilitare addestramento e valutazione su larga scala, abbiamo curato un dataset di video stereo ad alta definizione contenente oltre 11 milioni di frame allineati alla distanza interpupillare (IPD) umana naturale. Esperimenti estensivi dimostrano che StereoWorld supera sostanzialmente i metodi precedenti, generando video stereo con fedeltà visiva e coerenza geometrica superiori. La pagina web del progetto è disponibile all'indirizzo https://ke-xing.github.io/StereoWorld/.
English
The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.