RoMa v2: Быстрее, лучше, мощнее — более плотное сопоставление признаков

Аннотация

Плотное сопоставление признаков направлено на оценку всех соответствий между двумя изображениями трёхмерной сцены и в последнее время стало золотым стандартом благодаря своей высокой точности и надёжности. Однако существующие алгоритмы плотного сопоставления по-прежнему дают сбои или работают неудовлетворительно во многих сложных реальных сценариях, а высокоточные модели часто оказываются медленными, что ограничивает область их применения. В данной статье мы устраняем эти недостатки по широкому фронту с помощью серии систематических улучшений, которые в совокупности дают значительно лучшую модель. В частности, мы создаём новую архитектуру сопоставления и функцию потерь, которые в сочетании с тщательно подобранным разнообразным распределением обучающих данных позволяют нашей модели решать множество сложных задач сопоставления. Мы дополнительно ускоряем обучение за счёт разделённого двухэтапного конвейера «сопоставление → уточнение» и одновременно значительно сокращаем использование памяти на этапе уточнения с помощью специального CUDA-ядра. Наконец, мы используем недавно появившуюся базовую модель DINOv3 наряду с другими идеями, чтобы сделать модель более устойчивой и менее смещённой. В нашем обширном цикле экспериментов мы показываем, что получившийся новый алгоритм сопоставления устанавливает новый state-of-the-art, значительно превосходя по точности своих предшественников. Код доступен по адресу https://github.com/Parskatt/romav2

English

Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2

RoMa v2: Быстрее, лучше, мощнее — более плотное сопоставление признаков

RoMa v2: Harder Better Faster Denser Feature Matching

Аннотация

Support