OmniGlue: Обобщаемое сопоставление признаков с руководством модели-основы
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
May 21, 2024
Авторы: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI
Аннотация
Область сопоставления изображений наблюдает непрерывное появление новых техник обучаемого сопоставления признаков, с постоянным улучшением производительности на традиционных бенчмарках. Однако наше исследование показывает, что несмотря на эти достижения, их потенциал для применения в реальных приложениях ограничен из-за их ограниченных обобщающих способностей к новым областям изображений. В данной статье мы представляем OmniGlue, первый обучаемый сопоставитель изображений, разработанный с обобщением как основным принципом. OmniGlue использует широкие знания из модели основы зрения для направления процесса сопоставления признаков, повышая обобщение к областям, не виденным во время обучения. Кроме того, мы предлагаем новый механизм внимания, направляемый позицией ключевой точки, который разделяет пространственную и внешнюю информацию, что приводит к улучшению сопоставляющих дескрипторов. Мы проводим комплексные эксперименты на наборе из 7 наборов данных с различными областями изображений, включая сцену, объекты и аэрофотосъемку. Новые компоненты OmniGlue приводят к относительному приросту на невидимых областях в размере 20,9% по сравнению с прямо сравнимой базовой моделью, превосходя недавний метод LightGlue на 9,5% относительно. Код и модель можно найти по ссылке https://hwjiang1510.github.io/OmniGlue
English
The image matching field has been witnessing a continuous emergence of novel
learnable feature matching techniques, with ever-improving performance on
conventional benchmarks. However, our investigation shows that despite these
gains, their potential for real-world applications is restricted by their
limited generalization capabilities to novel image domains. In this paper, we
introduce OmniGlue, the first learnable image matcher that is designed with
generalization as a core principle. OmniGlue leverages broad knowledge from a
vision foundation model to guide the feature matching process, boosting
generalization to domains not seen at training time. Additionally, we propose a
novel keypoint position-guided attention mechanism which disentangles spatial
and appearance information, leading to enhanced matching descriptors. We
perform comprehensive experiments on a suite of 7 datasets with varied image
domains, including scene-level, object-centric and aerial images. OmniGlue's
novel components lead to relative gains on unseen domains of 20.9% with
respect to a directly comparable reference model, while also outperforming the
recent LightGlue method by 9.5% relatively.Code and model can be found at
https://hwjiang1510.github.io/OmniGlue