StereoSpace : Synthèse sans profondeur de la géométrie stéréo via une diffusion de bout en bout dans un espace canonique
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
December 11, 2025
papers.authors: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI
papers.abstract
Nous présentons StereoSpace, un cadre de synthèse monoculaire-stéréo basé sur la diffusion qui modélise la géométrie uniquement par conditionnement de point de vue, sans profondeur explicite ni recalage. Un espace rectifié canonique et le conditionnement guident le générateur à inférer les correspondances et combler les disocclusions de bout en bout. Pour garantir une évaluation équitable et exempte de fuite d'information, nous introduisons un protocole de bout en bout excluant toute vérité terrain ou estimation de géométrie proxy lors des tests. Le protocole privilégie des métriques reflétant la pertinence applicative : l'iSQoE pour le confort perceptif et le MEt³R pour la cohérence géométrique. StereoSpace surpasse les autres méthodes des catégories recalage-inpainting, recalage latent et conditionnement recadré, obtenant un parallaxe net et une robustesse élevée sur les scènes stratifiées et non lambertiennes. Cela établit la diffusion conditionnée par le point de vue comme une solution évolutive et sans profondeur pour la génération stéréoscopique.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.