ChatPaper.aiChatPaper

StereoSpace: Tiefenfreie Synthese von Stereogeometrie durch End-to-End-Diffusion in einem kanonischen Raum

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

December 11, 2025
papers.authors: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI

papers.abstract

Wir stellen StereoSpace vor, ein diffusionsbasiertes Framework für die monokulare Stereosynthese, das Geometrie ausschließlich durch Blickpunktkonditionierung modelliert, ohne explizite Tiefeninformationen oder Warping. Ein kanonischer rektifizierter Raum und die Konditionierung leiten den Generator an, Korrespondenzen abzuleiten und Disokklusionen end-to-end zu füllen. Um eine faire und datenleckfreie Evaluation zu gewährleisten, führen wir ein End-to-End-Protokoll ein, das jegliche Ground-Truth- oder Proxy-Geometrieschätzungen zur Testzeit ausschließt. Das Protokoll legt den Schwerpunkt auf Metriken, die die Relevanz für nachgelagerte Anwendungen widerspiegeln: iSQoE für den wahrgenommenen Komfort und MEt3R für die geometrische Konsistenz. StereoSpace übertrifft andere Methoden aus den Kategorien Warp & Inpaint, Latent-Warping und Warped-Conditioning, erreicht scharfe Parallaxe und hohe Robustheit bei geschichteten und nicht-lambertischen Szenen. Dies etabliert die blickpunktkonditionierte Diffusion als skalierbare, tiefenfreie Lösung für die Stereogenerierung.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.
PDF71December 13, 2025