GenStereo: 스테레오 이미지의 오픈 월드 생성 및 비지도 매칭을 위한 접근
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
저자: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
초록
스테레오 이미지는 확장 현실(XR) 장치, 자율 주행, 로봇 공학 등 다양한 응용 분야에서 기본적인 역할을 합니다. 그러나 이중 카메라 설정의 정밀한 캘리브레이션 요구 사항과 정확하고 조밀한 시차 지도를 얻는 복잡성으로 인해 고품질 스테레오 이미지를 획득하는 것은 여전히 어려운 과제입니다. 기존의 스테레오 이미지 생성 방법은 일반적으로 시각적 품질(시청용) 또는 기하학적 정확도(매칭용) 중 하나에 초점을 맞추고 있으며, 둘 다를 동시에 달성하지는 못했습니다. 우리는 이러한 격차를 해소하기 위해 확산 기반 접근법인 GenStereo를 소개합니다. 이 방법은 두 가지 주요 혁신을 포함합니다: (1) 시차 인식 좌표 임베딩과 왜곡된 입력 이미지를 기반으로 확산 과정을 조절하여 이전 방법보다 더 정확한 스테레오 정렬을 가능하게 하고, (2) 확산 생성 이미지와 왜곡된 이미지를 지능적으로 결합하는 적응형 융합 메커니즘을 통해 현실감과 시차 일관성을 모두 개선합니다. 11개의 다양한 스테레오 데이터셋에 대한 광범위한 학습을 통해 GenStereo는 강력한 일반화 능력을 입증했습니다. GenStereo는 스테레오 이미지 생성과 비지도 스테레오 매칭 작업 모두에서 최첨단 성능을 달성합니다. 우리의 프레임워크는 복잡한 하드웨어 설정 없이도 고품질 스테레오 이미지 생성을 가능하게 하여 실제 응용 분야와 비지도 학습 시나리오 모두에서 가치가 있습니다. 프로젝트 페이지는 https://qjizhi.github.io/genstereo에서 확인할 수 있습니다.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary