ChatPaper.aiChatPaper

RoMa v2: Bessere, schnellere und dichtere Merkmalszuordnung

RoMa v2: Harder Better Faster Denser Feature Matching

November 19, 2025
papers.authors: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg
cs.AI

papers.abstract

Dichte Merkmalszuordnung zielt darauf ab, alle Korrespondenzen zwischen zwei Bildern einer 3D-Szene zu schätzen und hat sich aufgrund ihrer hohen Genauigkeit und Robustheit kürzlich als Goldstandard etabliert. Allerdings versagen bestehende dichte Matcher nach wie vor oder schneiden in vielen schwierigen realen Szenarien schlecht ab, und hochpräzise Modelle sind oft langsam, was ihre Anwendbarkeit einschränkt. In diesem Papier gehen wir diese Schwächen auf breiter Front durch eine Reihe systematischer Verbesserungen an, die zusammen ein deutlich besseres Modell ergeben. Insbesondere konstruieren wir eine neuartige Matching-Architektur und -Loss-Funktion, die in Kombination mit einer kuratierten, diversen Trainingsverteilung unserem Modell ermöglicht, viele komplexe Zuordnungsaufgaben zu lösen. Wir beschleunigen das Training weiter durch eine entkoppelte Zwei-Stufen-Pipeline (Matching gefolgt von Verfeinerung) und reduzieren gleichzeitig den Speicherverbrauch während der Verfeinerung erheblich durch einen maßgeschneiderten CUDA-Kernel. Schließlich nutzen wir das kürzlich erschienene Foundation-Modell DINOv3 zusammen mit mehreren anderen Erkenntnissen, um das Modell robuster und unvoreingenommener zu machen. In unserem umfangreichen Experimentensatz zeigen wir, dass der resultierende neuartige Matcher einen neuen State-of-the-art etabliert und deutlich genauer ist als seine Vorgänger. Code ist verfügbar unter https://github.com/Parskatt/romav2
English
Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2
PDF62December 2, 2025