GenStereo: Rumo à Geração de Imagens Estéreo em Mundo Aberto e Correspondência Não Supervisionada
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Autores: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Resumo
Imagens estéreo são fundamentais para diversas aplicações, incluindo dispositivos de realidade estendida (XR), direção autônoma e robótica. Infelizmente, a aquisição de imagens estéreo de alta qualidade continua sendo um desafio devido aos requisitos precisos de calibração de configurações de câmeras duplas e à complexidade de obter mapas de disparidade densos e precisos. Os métodos existentes de geração de imagens estéreo geralmente se concentram na qualidade visual para visualização ou na precisão geométrica para correspondência, mas não em ambos. Apresentamos o GenStereo, uma abordagem baseada em difusão, para preencher essa lacuna. O método inclui duas inovações principais: (1) condicionar o processo de difusão em uma incorporação de coordenadas ciente da disparidade e em uma imagem de entrada deformada, permitindo um alinhamento estéreo mais preciso do que os métodos anteriores, e (2) um mecanismo de fusão adaptativa que combina inteligentemente a imagem gerada por difusão com uma imagem deformada, melhorando tanto o realismo quanto a consistência da disparidade. Por meio de um extenso treinamento em 11 conjuntos de dados estéreo diversos, o GenStereo demonstra uma forte capacidade de generalização. O GenStereo alcança desempenho de ponta tanto na geração de imagens estéreo quanto em tarefas de correspondência estéreo não supervisionadas. Nosso framework elimina a necessidade de configurações de hardware complexas, ao mesmo tempo em que permite a geração de imagens estéreo de alta qualidade, tornando-o valioso tanto para aplicações do mundo real quanto para cenários de aprendizado não supervisionado. A página do projeto está disponível em https://qjizhi.github.io/genstereo.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary