StereoWorld: Geração de Vídeo Monocular-para-Estéreo com Consciência Geométrica

Resumo

A crescente adoção de dispositivos de XR tem alimentado uma forte demanda por vídeo estéreo de alta qualidade, mas sua produção permanece cara e propensa a artefatos. Para enfrentar este desafio, apresentamos o StereoWorld, uma estrutura de trabalho de ponta a ponta que reaproveita um gerador de vídeo pré-treinado para a geração de vídeo monoculário para estéreo de alta fidelidade. Nossa estrutura condiciona conjuntamente o modelo na entrada do vídeo monoculário, supervisionando explicitamente a geração com uma regularização consciente da geometria para garantir a fidelidade estrutural 3D. Um esquema de fragmentação espaço-temporal é ainda integrado para permitir uma síntese eficiente e de alta resolução. Para possibilitar o treinamento e avaliação em larga escala, reunimos um conjunto de dados de vídeo estéreo de alta definição contendo mais de 11 milhões de quadros alinhados à distância interpupilar (DIP) humana natural. Experimentos extensivos demonstram que o StereoWorld supera substancialmente métodos anteriores, gerando vídeos estéreo com fidelidade visual e consistência geométrica superiores. A página web do projeto está disponível em https://ke-xing.github.io/StereoWorld/.

English

The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.