GenStereo: Hacia la generación de imágenes estéreo en entornos abiertos y el emparejamiento no supervisado

Resumen

Las imágenes estereoscópicas son fundamentales para numerosas aplicaciones, incluyendo dispositivos de realidad extendida (XR), conducción autónoma y robótica. Desafortunadamente, la adquisición de imágenes estereoscópicas de alta calidad sigue siendo un reto debido a los requisitos de calibración precisa de configuraciones de doble cámara y la complejidad de obtener mapas de disparidad densos y precisos. Los métodos existentes de generación de imágenes estereoscópicas suelen centrarse en la calidad visual para la visualización o en la precisión geométrica para la correspondencia, pero no en ambos. Presentamos GenStereo, un enfoque basado en difusión, para cerrar esta brecha. El método incluye dos innovaciones principales: (1) condicionar el proceso de difusión en una incrustación de coordenadas consciente de la disparidad y en una imagen de entrada deformada, permitiendo una alineación estereoscópica más precisa que los métodos anteriores, y (2) un mecanismo de fusión adaptativa que combina inteligentemente la imagen generada por difusión con una imagen deformada, mejorando tanto el realismo como la consistencia de la disparidad. A través de un extenso entrenamiento en 11 conjuntos de datos estereoscópicos diversos, GenStereo demuestra una fuerte capacidad de generalización. GenStereo logra un rendimiento de vanguardia tanto en la generación de imágenes estereoscópicas como en tareas de correspondencia estereoscópica no supervisada. Nuestro marco elimina la necesidad de configuraciones de hardware complejas al tiempo que permite la generación de imágenes estereoscópicas de alta calidad, lo que lo hace valioso tanto para aplicaciones del mundo real como para escenarios de aprendizaje no supervisado. La página del proyecto está disponible en https://qjizhi.github.io/genstereo.

English

Stereo images are fundamental to numerous applications, including extended reality (XR) devices, autonomous driving, and robotics. Unfortunately, acquiring high-quality stereo images remains challenging due to the precise calibration requirements of dual-camera setups and the complexity of obtaining accurate, dense disparity maps. Existing stereo image generation methods typically focus on either visual quality for viewing or geometric accuracy for matching, but not both. We introduce GenStereo, a diffusion-based approach, to bridge this gap. The method includes two primary innovations (1) conditioning the diffusion process on a disparity-aware coordinate embedding and a warped input image, allowing for more precise stereo alignment than previous methods, and (2) an adaptive fusion mechanism that intelligently combines the diffusion-generated image with a warped image, improving both realism and disparity consistency. Through extensive training on 11 diverse stereo datasets, GenStereo demonstrates strong generalization ability. GenStereo achieves state-of-the-art performance in both stereo image generation and unsupervised stereo matching tasks. Our framework eliminates the need for complex hardware setups while enabling high-quality stereo image generation, making it valuable for both real-world applications and unsupervised learning scenarios. Project page is available at https://qjizhi.github.io/genstereo

GenStereo: Hacia la generación de imágenes estéreo en entornos abiertos y el emparejamiento no supervisado

GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching

Resumen

Support