GenStereo: В направлении генерации стереоизображений в открытом мире и неконтролируемого сопоставления
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Авторы: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Аннотация
Стереоизображения играют ключевую роль в многочисленных приложениях, включая устройства расширенной реальности (XR), автономное вождение и робототехнику. К сожалению, получение высококачественных стереоизображений остается сложной задачей из-за требований к точной калибровке двухкамерных систем и сложности получения точных, плотных карт диспарантности. Существующие методы генерации стереоизображений обычно сосредоточены либо на визуальном качестве для просмотра, либо на геометрической точности для сопоставления, но не на обоих аспектах одновременно. Мы представляем GenStereo, подход на основе диффузии, который устраняет этот разрыв. Метод включает два основных нововведения: (1) условие диффузионного процесса на основе координатного встраивания, учитывающего диспарантность, и деформированного входного изображения, что позволяет достичь более точного стерео выравнивания по сравнению с предыдущими методами, и (2) адаптивный механизм слияния, который интеллектуально комбинирует изображение, сгенерированное диффузией, с деформированным изображением, улучшая как реалистичность, так и согласованность диспарантности. Благодаря обширному обучению на 11 разнообразных стерео наборах данных, GenStereo демонстрирует высокую способность к обобщению. GenStereo достигает наилучших результатов как в задачах генерации стереоизображений, так и в задачах неконтролируемого стерео сопоставления. Наш фреймворк устраняет необходимость в сложных аппаратных настройках, обеспечивая при этом генерацию высококачественных стереоизображений, что делает его ценным как для реальных приложений, так и для сценариев неконтролируемого обучения. Страница проекта доступна по адресу: https://qjizhi.github.io/genstereo.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary