ChatPaper.aiChatPaper

StereoSpace: Síntesis de Geometría Estéreo sin Profundidad mediante Difusión de Extremo a Extremo en un Espacio Canónico

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

December 11, 2025
Autores: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI

Resumen

Presentamos StereoSpace, un framework basado en difusión para la síntesis de monoculares a estéreo que modela la geometría únicamente mediante el condicionamiento por punto de vista, sin necesidad de profundidad explícita o operaciones de deformación. Un espacio canónico rectificado y el condicionamiento guían al generador para inferir correspondencias y rellenar oclusiones de extremo a extremo. Para garantizar una evaluación justa y libre de filtraciones, introducimos un protocolo de extremo a extremo que excluye cualquier estimación de geometría de referencia o por proxy durante la prueba. El protocolo enfatiza métricas que reflejan la relevancia para aplicaciones posteriores: iSQoE para el confort perceptual y MEt3R para la consistencia geométrica. StereoSpace supera a otros métodos de las categorías de deformación e inpaintado, deformación en el espacio latente y condicionamiento deformado, logrando un paralaje nítido y una gran robustez en escenas en capas y no lambertianas. Esto establece al condicionamiento por punto de vista en modelos de difusión como una solución escalable y libre de profundidad para la generación de contenido estéreo.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.
PDF71December 13, 2025