GenStereo: Hacia la generación de imágenes estéreo en entornos abiertos y el emparejamiento no supervisado
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Autores: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Resumen
Las imágenes estereoscópicas son fundamentales para numerosas aplicaciones, incluyendo dispositivos de realidad extendida (XR), conducción autónoma y robótica. Desafortunadamente, la adquisición de imágenes estereoscópicas de alta calidad sigue siendo un reto debido a los requisitos de calibración precisa de configuraciones de doble cámara y la complejidad de obtener mapas de disparidad densos y precisos. Los métodos existentes de generación de imágenes estereoscópicas suelen centrarse en la calidad visual para la visualización o en la precisión geométrica para la correspondencia, pero no en ambos. Presentamos GenStereo, un enfoque basado en difusión, para cerrar esta brecha. El método incluye dos innovaciones principales: (1) condicionar el proceso de difusión en una incrustación de coordenadas consciente de la disparidad y en una imagen de entrada deformada, permitiendo una alineación estereoscópica más precisa que los métodos anteriores, y (2) un mecanismo de fusión adaptativa que combina inteligentemente la imagen generada por difusión con una imagen deformada, mejorando tanto el realismo como la consistencia de la disparidad. A través de un extenso entrenamiento en 11 conjuntos de datos estereoscópicos diversos, GenStereo demuestra una fuerte capacidad de generalización. GenStereo logra un rendimiento de vanguardia tanto en la generación de imágenes estereoscópicas como en tareas de correspondencia estereoscópica no supervisada. Nuestro marco elimina la necesidad de configuraciones de hardware complejas al tiempo que permite la generación de imágenes estereoscópicas de alta calidad, lo que lo hace valioso tanto para aplicaciones del mundo real como para escenarios de aprendizaje no supervisado. La página del proyecto está disponible en https://qjizhi.github.io/genstereo.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary