스테레오스페이스: 정규 공간에서의 종단 간 확산 모델을 통한 깊이 정보 없이 구현하는 스테레오 기하구조 합성
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
December 11, 2025
저자: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI
초록
스테레오스페이스(StereoSpace)는 명시적인 깊이 정보나 워핑 없이 순수한 시점 조건화를 통해 기하학을 모델링하는 단안-입체 합성을 위한 확산 기반 프레임워크입니다. 정규화된 정렬 공간과 조건화는 생성기가 대응 관계를 추론하고 폐색 영역을 종단간으로 채우도록 안내합니다. 공정하고 정보 누출이 없는 평가를 위해, 우리는 테스트 시점에 실제 지면 정보나 대리 기하학 추정치를 완전히 배제한 종단간 평가 프로토콜을 제안합니다. 이 프로토콜은 하류 작업 관련성을 반영하는 지표, 즉 지각적 안락도를 위한 iSQoE와 기하학적 일관성을 위한 MEt3R에 중점을 둡니다. 스테레오스페이스는 워프 및 인페인팅, 잠재 공간 워핑, 워프 조건화 범주의 다른 방법들을 능가하며, 계층적 및 비람버시안 장면에서 선명한 시차와 강력한 견고성을 달성합니다. 이를 통해 시점 조건화 확산 모델이 확장 가능한 무-깊이 스테레오 생성의 실현 가능한 해법으로 입증되었습니다.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.