StereoSpace: Síntese de Geometria Estéreo sem Profundidade via Difusão End-to-End em um Espaço Canônico

Resumo

Apresentamos o StereoSpace, uma estrutura baseada em difusão para síntese monoculo-estereoscópica que modela a geometria puramente por meio de condicionamento de ponto de vista, sem profundidade explícita ou warping. Um espaço canônico retificado e o condicionamento orientam o gerador a inferir correspondências e preencher desoclusões de forma end-to-end. Para garantir uma avaliação justa e livre de vazamentos, introduzimos um protocolo end-to-end que exclui qualquer ground truth ou estimativas de geometria proxy durante o teste. O protocolo enfatiza métricas que refletem a relevância para aplicações: iSQoE para conforto perceptual e MEt3R para consistência geométrica. O StereoSpace supera outros métodos das categorias warp & inpaint, latent-warping e warped-conditioning, alcançando paralaxe nítida e forte robustez em cenas estratificadas e não-Lambertianas. Isso estabelece a difusão condicionada por ponto de vista como uma solução escalável e livre de profundidade para geração estereoscópica.

English

We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.