ChatPaper.aiChatPaper

StereoWorld: Генерация стереовидео из монокулярного с учетом геометрии

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

December 10, 2025
Авторы: Ke Xing, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Xiaojie Jin, Yao Zhao, Yunchao Wei
cs.AI

Аннотация

Растущее распространение устройств XR стимулирует высокий спрос на качественное стереовидео, однако его производство остается дорогостоящим и склонным к артефактам. Для решения этой проблемы мы представляем StereoWorld — сквозную структуру, которая адаптирует предварительно обученный генератор видео для высококачественного моно-стерео преобразования. Наша система совместно кондиционирует модель на входном моноскопическом видео, одновременно явно контролируя генерацию с помощью геометрически осознанной регуляризации для обеспечения структурной достоверности в 3D. Для эффективного синтеза видео высокого разрешения дополнительно интегрирована пространственно-временная схему тайлинга. Для обеспечения масштабируемого обучения и оценки мы создали высококачественный набор данных стереовидео, содержащий более 11 миллионов кадров, выровненных по естественному межзрачковому расстоянию человека. Многочисленные эксперименты демонстрируют, что StereoWorld существенно превосходит существующие методы, генерируя стереовидео с превосходной визуальной достоверностью и геометрической согласованностью. Страница проекта доступна по адресу https://ke-xing.github.io/StereoWorld/.
English
The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.
PDF602December 13, 2025