OmniGlue: Correspondência de Características Generalizável com Orientação de Modelo Base
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
May 21, 2024
Autores: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI
Resumo
O campo de correspondência de imagens tem testemunhado o surgimento contínuo de novas técnicas aprendíveis de correspondência de características, com desempenho cada vez melhor em benchmarks convencionais. No entanto, nossa investigação mostra que, apesar desses avanços, seu potencial para aplicações do mundo real é limitado por suas capacidades de generalização restritas a novos domínios de imagem. Neste artigo, apresentamos o OmniGlue, o primeiro correspondente de imagem aprendível projetado com a generalização como princípio central. O OmniGlue aproveita o conhecimento amplo de um modelo de base de visão para guiar o processo de correspondência de características, impulsionando a generalização para domínios não vistos durante o treinamento. Além disso, propomos um novo mecanismo de atenção guiado pela posição de pontos-chave, que desacopla informações espaciais e de aparência, resultando em descritores de correspondência aprimorados. Realizamos experimentos abrangentes em um conjunto de 7 conjuntos de dados com diversos domínios de imagem, incluindo imagens de cena, centradas em objetos e aéreas. Os componentes inovadores do OmniGlue resultam em ganhos relativos de 20,9% em domínios não vistos em relação a um modelo de referência diretamente comparável, enquanto também superam o método LightGlue recente em 9,5% relativamente. O código e o modelo podem ser encontrados em https://hwjiang1510.github.io/OmniGlue.
English
The image matching field has been witnessing a continuous emergence of novel
learnable feature matching techniques, with ever-improving performance on
conventional benchmarks. However, our investigation shows that despite these
gains, their potential for real-world applications is restricted by their
limited generalization capabilities to novel image domains. In this paper, we
introduce OmniGlue, the first learnable image matcher that is designed with
generalization as a core principle. OmniGlue leverages broad knowledge from a
vision foundation model to guide the feature matching process, boosting
generalization to domains not seen at training time. Additionally, we propose a
novel keypoint position-guided attention mechanism which disentangles spatial
and appearance information, leading to enhanced matching descriptors. We
perform comprehensive experiments on a suite of 7 datasets with varied image
domains, including scene-level, object-centric and aerial images. OmniGlue's
novel components lead to relative gains on unseen domains of 20.9% with
respect to a directly comparable reference model, while also outperforming the
recent LightGlue method by 9.5% relatively.Code and model can be found at
https://hwjiang1510.github.io/OmniGlue