ChatPaper.aiChatPaper

RoMa v2 : Appariement de caractéristiques plus robuste, meilleur, plus rapide et plus dense

RoMa v2: Harder Better Faster Denser Feature Matching

November 19, 2025
papers.authors: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg
cs.AI

papers.abstract

L'appariement dense de caractéristiques vise à estimer toutes les correspondances entre deux images d'une scène 3D et s'est récemment imposé comme la référence en raison de sa grande précision et de sa robustesse. Cependant, les apparieurs denses existants échouent ou performent mal dans de nombreux scénarios difficiles du monde réel, et les modèles à haute précision sont souvent lents, limitant leur applicabilité. Dans cet article, nous attaquons ces faiblesses sur un large front grâce à une série d'améliorations systématiques qui, ensemble, produisent un modèle nettement supérieur. En particulier, nous construisons une architecture d'appariement et une fonction de perte novatrices qui, combinées à une distribution d'apprentissage diversifiée et soigneusement sélectionnée, permettent à notre modèle de résoudre de nombreuses tâches d'appariement complexes. Nous accélérons également l'apprentissage grâce à un pipeline découplé en deux étapes (appariement puis raffinement), et réduisons dans le même temps considérablement l'utilisation de la mémoire lors du raffinement grâce à un noyau CUDA personnalisé. Enfin, nous exploitons le modèle de fondation DINOv3 ainsi que plusieurs autres idées pour rendre le modèle plus robuste et moins biaisé. Dans notre vaste série d'expériences, nous montrons que le nouvel apparieur qui en résulte établit un nouvel état de l'art, étant nettement plus précis que ses prédécesseurs. Le code est disponible à l'adresse https://github.com/Parskatt/romav2.
English
Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2
PDF62December 2, 2025