StereoSpace: Синтез стереогеометрии без данных о глубине посредством сквозной диффузии в каноническом пространстве
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
December 11, 2025
Авторы: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI
Аннотация
Мы представляем StereoSpace — диффузионную систему для моно-стерео синтеза, которая моделирует геометрию исключительно через кондиционирование по точке обзора, без явного использования карт глубины или варпинга. Каноническое ректифицированное пространство и условия направляют генератор на вывод соответствий и заполнение дискклюзий по принципу «конец в конец». Для обеспечения корректной и свободной от утечек оценки мы вводим сквозной протокол, исключающий использование эталонных данных или прокси-оценок геометрии на этапе тестирования. Протокол акцентирует метрики, отражающие практическую значимость: iSQoE для оценки перцептивного комфорта и MEt3R для геометрической согласованности. StereoSpace превосходит методы из категорий варп-инпейнтинга, латентного варпинга и варпированного кондиционирования, демонстрируя четкий параллакс и высокую устойчивость на слоистых и неламбертовых сценах. Это подтверждает подход с диффузионными моделями, кондиционированными по точке обзора, как масштабируемое решение для стереогенерации, не требующее данных о глубине.
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.