GenStereo: ステレオ画像のオープンワールド生成と教師なしマッチングに向けて
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
著者: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
要旨
ステレオ画像は、拡張現実(XR)デバイス、自動運転、ロボティクスなど、数多くのアプリケーションにおいて基本的な要素です。しかし、高品質なステレオ画像の取得は、デュアルカメラセットアップの精密なキャリブレーション要件や、正確で密な視差マップの取得の複雑さから、依然として困難な課題です。既存のステレオ画像生成手法は、視覚品質を重視するか、マッチングのための幾何学的精度を重視するかのいずれかに焦点を当てており、両方を同時に実現することはできませんでした。本論文では、このギャップを埋めるために、拡散モデルに基づくアプローチであるGenStereoを提案します。この手法には、主に2つの革新が含まれています。(1) 拡散プロセスを視差認識座標埋め込みとワープされた入力画像に条件付けることで、従来の手法よりも正確なステレオアラインメントを実現し、(2) 拡散生成画像とワープ画像をインテリジェントに結合する適応的融合メカニズムにより、リアリズムと視差の一貫性の両方を向上させます。11の多様なステレオデータセットを用いた大規模なトレーニングを通じて、GenStereoは強力な汎化能力を示しています。GenStereoは、ステレオ画像生成と教師なしステレオマッチングタスクの両方において、最先端の性能を達成します。本フレームワークは、複雑なハードウェアセットアップを必要とせず、高品質なステレオ画像生成を可能にするため、実世界のアプリケーションと教師なし学習シナリオの両方において価値があります。プロジェクトページはhttps://qjizhi.github.io/genstereoで公開されています。
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary