ChatPaper.aiChatPaper

StereoSpace: Dieptevrije Synthese van Stereogeometrie via End-to-End Diffusie in een Canonieke Ruimte

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

December 11, 2025
Auteurs: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI

Samenvatting

Wij introduceren StereoSpace, een op diffusie gebaseerd raamwerk voor monocular-to-stereo synthese dat geometrie puur modelleert door viewpoint-conditionering, zonder expliciete diepte of warping. Een canonieke, gerechtificeerde ruimte en de conditionering sturen de generator om op end-to-end wijze correspondenties af te leiden en disocclusies in te vullen. Om een eerlijke en lekvrije evaluatie te waarborgen, introduceren we een end-to-end protocol dat tijdens de testfase elke ground truth of proxy-geometrieschatting uitsluit. Het protocol benadrukt metrieken die downstream-relevantie weerspiegelen: iSQoE voor perceptueel comfort en MEt3R voor geometrische consistentie. StereoSpace overtreft andere methoden uit de categorieën warp & inpaint, latent-warping en warped-conditionering, en bereikt scherpe parallax en een sterke robuustheid op gelaagde en niet-Lambertiaanse scènes. Dit vestigt viewpoint-conditioned diffusie als een schaalbare, diepte-vrije oplossing voor stereogeneratie.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.
PDF71December 13, 2025