RoMa v2: Correspondência de Características Mais Difícil, Melhor, Mais Rápida e Mais Densa

Resumo

A correspondência densa de características tem como objetivo estimar todas as correspondências entre duas imagens de uma cena 3D e foi recentemente estabelecida como o padrão-ouro devido à sua alta precisão e robustez. No entanto, os correspondedores densos existentes ainda falham ou apresentam desempenho insatisfatório em muitos cenários reais complexos, e os modelos de alta precisão são frequentemente lentos, limitando sua aplicabilidade. Neste artigo, atacamos essas fraquezas em uma ampla frente através de uma série de melhorias sistemáticas que, juntas, resultam em um modelo significativamente melhor. Em particular, construímos uma arquitetura e uma função de perda de correspondência inovadoras, que, combinadas com uma distribuição de treinamento diversificada e curada, permitem que nosso modelo resolva muitas tarefas complexas de correspondência. Além disso, tornamos o treinamento mais rápido por meio de um pipeline de correspondência e refinamento em dois estágios desacoplados e, ao mesmo tempo, reduzimos significativamente o uso de memória no refinamento por meio de um kernel CUDA personalizado. Por fim, aproveitamos o recente modelo de base DINOv3, juntamente com várias outras percepções, para tornar o modelo mais robusto e imparcial. Em nossa extensa série de experimentos, mostramos que o novo correspondedor resultante estabelece um novo estado da arte, sendo significativamente mais preciso do que seus predecessores. O código está disponível em https://github.com/Parskatt/romav2.

English

Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2