GenStereo: Verso la Generazione di Immagini Stereo in Mondi Aperti e il Matching Non Supervisionato
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Autori: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Abstract
Le immagini stereo sono fondamentali per numerose applicazioni, inclusi i dispositivi di realtà estesa (XR), la guida autonoma e la robotica. Purtroppo, acquisire immagini stereo di alta qualità rimane una sfida a causa dei requisiti di calibrazione precisi delle configurazioni a doppia fotocamera e della complessità nell'ottenere mappe di disparità dense e accurate. I metodi esistenti per la generazione di immagini stereo si concentrano tipicamente sulla qualità visiva per la visualizzazione o sull'accuratezza geometrica per il matching, ma non su entrambi. Introduciamo GenStereo, un approccio basato sulla diffusione, per colmare questa lacuna. Il metodo include due innovazioni principali: (1) il condizionamento del processo di diffusione su un'incorporazione di coordinate consapevole della disparità e su un'immagine di input deformata, consentendo un allineamento stereo più preciso rispetto ai metodi precedenti, e (2) un meccanismo di fusione adattiva che combina in modo intelligente l'immagine generata dalla diffusione con un'immagine deformata, migliorando sia il realismo che la coerenza della disparità. Attraverso un addestramento esteso su 11 diversi dataset stereo, GenStereo dimostra una forte capacità di generalizzazione. GenStereo raggiunge prestazioni all'avanguardia sia nella generazione di immagini stereo che nei task di matching stereo non supervisionati. Il nostro framework elimina la necessità di configurazioni hardware complesse, consentendo la generazione di immagini stereo di alta qualità, rendendolo prezioso sia per applicazioni nel mondo reale che per scenari di apprendimento non supervisionato. La pagina del progetto è disponibile all'indirizzo https://qjizhi.github.io/genstereo.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereo