RoMa v2: Harder Better Faster Denser Feature Matching

Samenvatting

Dichte kenmerkenmatching heeft als doel alle correspondenties tussen twee afbeeldingen van een 3D-scène te schatten en is recentelijk de gouden standaard geworden vanwege de hoge nauwkeurigheid en robuustheid. Bestaande dichte matchers falen of presteren echter nog steeds slecht voor veel moeilijke real-world scenario's, en hoogprecisie modellen zijn vaak traag, wat hun toepasbaarheid beperkt. In dit artikel pakken we deze zwakke punten op brede fronten aan via een reeks systematische verbeteringen die samen een aanzienlijk beter model opleveren. We construeren in het bijzonder een nieuwe matchingarchitectuur en verliesfunctie, die, gecombineerd met een samengestelde diverse trainingsdistributie, ons model in staat stelt veel complexe matchingtaken op te lossen. We versnellen de training verder via een ontkoppelde tweefasen pijplijn (eerst matching, dan verfijning) en verminderen tegelijkertijd het geheugengebruik tijdens de verfijning aanzienlijk door middel van een aangepaste CUDA-kernel. Ten slotte benutten we het recente DINOv3 foundation model samen met meerdere andere inzichten om het model robuuster en minder bevooroordeeld te maken. In onze uitgebreide reeks experimenten tonen we aan dat de resulterende nieuwe matcher een nieuwe state-of-the-art vestigt en aanzienlijk nauwkeuriger is dan zijn voorgangers. Code is beschikbaar op https://github.com/Parskatt/romav2

English

Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2