GenStereo : Vers la génération en monde ouvert d'images stéréoscopiques et l'appariement non supervisé
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Auteurs: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Résumé
Les images stéréo sont fondamentales pour de nombreuses applications, notamment les dispositifs de réalité étendue (XR), la conduite autonome et la robotique. Malheureusement, l'acquisition d'images stéréo de haute qualité reste un défi en raison des exigences de calibration précise des configurations à double caméra et de la complexité d'obtention de cartes de disparité denses et précises. Les méthodes existantes de génération d'images stéréo se concentrent généralement soit sur la qualité visuelle pour la visualisation, soit sur la précision géométrique pour l'appariement, mais pas sur les deux à la fois. Nous présentons GenStereo, une approche basée sur la diffusion, pour combler cette lacune. La méthode comprend deux innovations principales : (1) le conditionnement du processus de diffusion sur un encodage de coordonnées sensible à la disparité et une image d'entrée déformée, permettant un alignement stéréo plus précis que les méthodes précédentes, et (2) un mécanisme de fusion adaptatif qui combine intelligemment l'image générée par diffusion avec une image déformée, améliorant à la fois le réalisme et la cohérence de la disparité. Grâce à un entraînement approfondi sur 11 ensembles de données stéréo diversifiés, GenStereo démontre une forte capacité de généralisation. GenStereo atteint des performances de pointe à la fois dans la génération d'images stéréo et dans les tâches d'appariement stéréo non supervisées. Notre framework élimine le besoin de configurations matérielles complexes tout en permettant la génération d'images stéréo de haute qualité, ce qui le rend précieux pour les applications réelles et les scénarios d'apprentissage non supervisé. La page du projet est disponible à l'adresse https://qjizhi.github.io/genstereo.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary