RoMa v2: Emparejamiento de características más difícil, mejor, más rápido y más denso
RoMa v2: Harder Better Faster Denser Feature Matching
November 19, 2025
Autores: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg
cs.AI
Resumen
La correspondencia densa de características tiene como objetivo estimar todas las correspondencias entre dos imágenes de una escena 3D y se ha establecido recientemente como el método de referencia debido a su alta precisión y robustez. Sin embargo, los métodos densos existentes aún fallan o tienen un rendimiento deficiente en muchos escenarios reales complejos, y los modelos de alta precisión suelen ser lentos, lo que limita su aplicabilidad. En este artículo, abordamos estas debilidades de manera amplia mediante una serie de mejoras sistemáticas que, en conjunto, producen un modelo significativamente mejor. En particular, construimos una arquitectura y función de pérdida novedosas para la correspondencia, que, combinadas con una distribución de entrenamiento diversa y cuidadosamente seleccionada, permiten a nuestro modelo resolver muchas tareas de correspondencia complejas. Además, aceleramos el entrenamiento mediante una canalización desacoplada de dos etapas (correspondencia seguida de refinamiento), y al mismo tiempo, reducimos significativamente el uso de memoria en el refinamiento mediante un kernel CUDA personalizado. Finalmente, aprovechamos el modelo base DINOv3 reciente junto con múltiples otras ideas para hacer el modelo más robusto e imparcial. En nuestro extenso conjunto de experimentos, demostramos que el nuevo método de correspondencia resultante establece un nuevo estado del arte, siendo significativamente más preciso que sus predecesores. El código está disponible en https://github.com/Parskatt/romav2.
English
Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2