ChatPaper.aiChatPaper

OmniGlue: Обобщаемое сопоставление признаков с руководством модели-основы

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21, 2024
Авторы: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI

Аннотация

Область сопоставления изображений наблюдает непрерывное появление новых техник обучаемого сопоставления признаков, с постоянным улучшением производительности на традиционных бенчмарках. Однако наше исследование показывает, что несмотря на эти достижения, их потенциал для применения в реальных приложениях ограничен из-за их ограниченных обобщающих способностей к новым областям изображений. В данной статье мы представляем OmniGlue, первый обучаемый сопоставитель изображений, разработанный с обобщением как основным принципом. OmniGlue использует широкие знания из модели основы зрения для направления процесса сопоставления признаков, повышая обобщение к областям, не виденным во время обучения. Кроме того, мы предлагаем новый механизм внимания, направляемый позицией ключевой точки, который разделяет пространственную и внешнюю информацию, что приводит к улучшению сопоставляющих дескрипторов. Мы проводим комплексные эксперименты на наборе из 7 наборов данных с различными областями изображений, включая сцену, объекты и аэрофотосъемку. Новые компоненты OmniGlue приводят к относительному приросту на невидимых областях в размере 20,9% по сравнению с прямо сравнимой базовой моделью, превосходя недавний метод LightGlue на 9,5% относительно. Код и модель можно найти по ссылке https://hwjiang1510.github.io/OmniGlue
English
The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of 7 datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of 20.9% with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by 9.5% relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
PDF122December 15, 2024