ChatPaper.aiChatPaper

RoMa v2:より高度で高速な高密度特徴マッチング

RoMa v2: Harder Better Faster Denser Feature Matching

November 19, 2025
著者: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg
cs.AI

要旨

高密度特徴マッチングは、3Dシーンを撮影した2枚の画像間の全ての対応点を推定することを目的とし、その高精度さと頑健性から近年ゴールドスタンダードとして確立されています。しかし、既存の高密度マッチャーは、多くの困難な実世界シナリオにおいて未だに失敗したり性能が低下したりすることがあり、高精度モデルは処理速度が遅いことが多く、応用範囲が限定されています。本論文では、これらの弱点を広範にわたって改善し、総合的に大幅に優れたモデルを実現する一連の体系的な改良を提案します。特に、新規のマッチングアーキテクチャと損失関数を構築し、これを精選された多様な訓練分布と組み合わせることで、多くの複雑なマッチングタスクを解決可能にします。さらに、分離型の2段階(マッチング→精密化)パイプラインにより訓練を高速化すると同時に、カスタムCUDAカーネルを通じて精密化時のメモリ使用量を大幅に削減します。最後に、最近のDINOv3基盤モデルおよびその他の複数の知見を活用し、モデルの頑健性とバイアス低減を図ります。広範な実験結果から、提案する新規マッチャーが新たなstate-of-the-artを達成し、従来手法よりも大幅に高精度であることを示します。コードはhttps://github.com/Parskatt/romav2で公開されています。
English
Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2
PDF62December 2, 2025