GenStereo: Naar Open-Wereld Generatie van Stereobeelden en Ongecontroleerde Matching
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Auteurs: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Samenvatting
Stereobeelden zijn essentieel voor tal van toepassingen, waaronder extended reality (XR)-apparaten, autonoom rijden en robotica. Helaas blijft het verkrijgen van hoogwaardige stereobeelden een uitdaging vanwege de precieze kalibratie-eisen van dual-camera-opstellingen en de complexiteit van het verkrijgen van nauwkeurige, dichte dispariteitskaarten. Bestaande methoden voor stereobeeldgeneratie richten zich doorgaans op ofwel visuele kwaliteit voor weergave, ofwel geometrische nauwkeurigheid voor matching, maar niet op beide. Wij introduceren GenStereo, een op diffusie gebaseerde aanpak, om deze kloof te overbruggen. De methode omvat twee primaire innovaties: (1) het conditioneren van het diffusieproces op een dispariteitsbewuste coördinaatinbedding en een vervormd invoerbeeld, waardoor een nauwkeurigere stereo-uitlijning mogelijk is dan bij eerdere methoden, en (2) een adaptief fusiemechanisme dat het door diffusie gegenereerde beeld intelligent combineert met een vervormd beeld, waardoor zowel realisme als dispariteitsconsistentie worden verbeterd. Door uitgebreide training op 11 diverse stereodatasets toont GenStereo een sterke generalisatiecapaciteit. GenStereo behaalt state-of-the-art prestaties in zowel stereobeeldgeneratie als ongesuperviseerde stereomatching-taken. Ons framework elimineert de noodzaak van complexe hardware-opstellingen en maakt tegelijkertijd hoogwaardige stereobeeldgeneratie mogelijk, wat het waardevol maakt voor zowel real-world toepassingen als ongesuperviseerde leeromgevingen. De projectpagina is beschikbaar op https://qjizhi.github.io/genstereo.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary