ChatPaper.aiChatPaper

StereoSpace: Sintesi Senza Profondità della Geometria Stereo tramite Diffusione End-to-End in uno Spazio Canonico

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

December 11, 2025
Autori: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI

Abstract

Introduciamo StereoSpace, un framework basato su diffusione per la sintesi monoculare-stereo che modella la geometria esclusivamente tramite condizionamento del punto di vista, senza l'uso esplicito di mappe di profondità o operazioni di warping. Uno spazio canonico rettificato e il condizionamento guidano il generatore a inferire le corrispondenze e a riempire le disocclusioni in modo end-to-end. Per garantire una valutazione equa e priva di leakage, introduciamo un protocollo end-to-end che esclude qualsiasi ground truth o stima proxy della geometria al momento del test. Il protocollo enfatizza metriche che riflettono la rilevanza per le applicazioni downstream: iSQoE per il comfort percettivo e MEt3R per la consistenza geometrica. StereoSpace supera altri metodi delle categorie warp & inpaint, latent-warping e warped-conditioning, raggiungendo un parallasse nitido e una forte robustezza su scene stratificate e non-Lambertiane. Ciò stabilisce il condizionamento del punto di vista nella diffusione come una soluzione scalabile e libera da profondità per la generazione stereo.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.
PDF71December 13, 2025