ChatPaper.aiChatPaper

StereoWorld: Geometrie-bewuste monocular-naar-stereo videogeneratie

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

December 10, 2025
Auteurs: Ke Xing, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Xiaojie Jin, Yao Zhao, Yunchao Wei
cs.AI

Samenvatting

De toenemende adoptie van XR-apparaten heeft een sterke vraag naar hoogwaardige stereovideo's aangewakkerd, maar de productie ervan blijft kostbaar en gevoelig voor artefacten. Om deze uitdaging aan te pakken, presenteren we StereoWorld, een end-to-end framework dat een vooraf getrainde videogenerator hergebruikt voor hoogfideliteitsgeneratie van monocular-naar-stereo video. Ons framework conditioneert het model gezamenlijk op de monocular videobeelden, terwijl de generatie expliciet wordt gesuperviseerd met een geometrie-bewuste regularisatie om de 3D-structurele getrouwheid te waarborgen. Een spatio-temporele tegelingsmethode is verder geïntegreerd om efficiënte, hoogresolutie-synthese mogelijk te maken. Om grootschalige training en evaluatie mogelijk te maken, hebben we een hoogwaardige stereovideodataset samengesteld met meer dan 11 miljoen frames, uitgelijnd op de natuurlijke interpupillaire afstand (IPD) van mensen. Uitgebreide experimenten tonen aan dat StereoWorld aanzienlijk beter presteert dan eerdere methoden en stereovideo's genereert met superieure visuele getrouwheid en geometrische consistentie. De projectwebpagina is beschikbaar op https://ke-xing.github.io/StereoWorld/.
English
The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.
PDF602December 13, 2025