UFM: フローを用いた統一的な密対応へのシンプルなアプローチ
UFM: A Simple Path towards Unified Dense Correspondence with Flow
June 10, 2025
著者: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI
要旨
密な画像対応は、視覚オドメトリー、3次元再構成、物体関連付け、再識別など、多くの応用において中心的な役割を果たす。歴史的に、密な対応は、広基線シナリオとオプティカルフロー推定に対して別々に取り組まれてきたが、2つの画像間の内容を一致させるという共通の目標がある。本論文では、ソース画像とターゲット画像の両方で共視可能なピクセルに対して統一されたデータで訓練された統一フロー&マッチングモデル(UFM)を開発する。UFMは、単純で汎用的なトランスフォーマーアーキテクチャを使用し、直接(u,v)フローを回帰する。従来の粗から細へのコストボリュームに比べて、大規模なフローに対して訓練が容易で、より正確である。UFMは、最先端のフローメソッド(Unimatch)よりも28%精度が高く、密な広基線マッチャー(RoMa)よりも62%エラーが少なく、6.7倍高速である。UFMは、統一された訓練が両ドメインで専門的なアプローチを凌駕できることを初めて実証した。この結果は、高速で汎用的な対応を可能にし、マルチモーダル、長距離、リアルタイムの対応タスクに向けた新たな方向性を開くものである。
English
Dense image correspondence is central to many applications, such as visual
odometry, 3D reconstruction, object association, and re-identification.
Historically, dense correspondence has been tackled separately for
wide-baseline scenarios and optical flow estimation, despite the common goal of
matching content between two images. In this paper, we develop a Unified Flow &
Matching model (UFM), which is trained on unified data for pixels that are
co-visible in both source and target images. UFM uses a simple, generic
transformer architecture that directly regresses the (u,v) flow. It is easier
to train and more accurate for large flows compared to the typical
coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than
state-of-the-art flow methods (Unimatch), while also having 62% less error and
6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to
demonstrate that unified training can outperform specialized approaches across
both domains. This result enables fast, general-purpose correspondence and
opens new directions for multi-modal, long-range, and real-time correspondence
tasks.