RoMa v2: Feature Matching Più Robusto, Migliore, Più Veloce e Denso
RoMa v2: Harder Better Faster Denser Feature Matching
November 19, 2025
Autori: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg
cs.AI
Abstract
L'accoppiamento denso di caratteristiche mira a stimare tutte le corrispondenze tra due immagini di una scena 3D e si è recentemente affermato come metodo di riferimento grazie alla sua elevata accuratezza e robustezza. Tuttavia, i metodi di accoppiamento denso esistenti falliscono o si comportano in modo insoddisfacente in molti scenari reali complessi, e i modelli ad alta precisione sono spesso lenti, limitandone l'applicabilità. In questo articolo, affrontiamo queste debolezze su un ampio fronte attraverso una serie di miglioramenti sistematici che, insieme, producono un modello significativamente migliore. In particolare, costruiamo un'architettura di accoppiamento e una funzione di perdita innovativa che, combinate con una distribuzione di addestramento curata e diversificata, consentono al nostro modello di risolvere molti compiti complessi di accoppiamento. Rendiamo inoltre l'addestramento più veloce attraverso una pipeline disaccoppiata in due fasi (prima accoppiamento, poi raffinamento) e, allo stesso tempo, riduciamo significativamente l'utilizzo della memoria durante la raffinazione mediante un kernel CUDA personalizzato. Infine, sfruttiamo il recente modello foundation DINOv3 insieme a molteplici altre intuizioni per rendere il modello più robusto e imparziale. Nella nostra ampia serie di esperimenti dimostriamo che il nuovo metodo di accoppiamento risultante stabilisce un nuovo stato dell'arte, essendo significativamente più accurato dei suoi predecessori. Il codice è disponibile all'indirizzo https://github.com/Parskatt/romav2.
English
Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2