OmniGlue: Emparejamiento de características generalizable con guía de modelos fundacionales
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
May 21, 2024
Autores: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI
Resumen
El campo de emparejamiento de imágenes ha sido testigo de la continua aparición de nuevas técnicas aprendibles para el emparejamiento de características, con un rendimiento cada vez mejor en los benchmarks convencionales. Sin embargo, nuestra investigación muestra que, a pesar de estos avances, su potencial para aplicaciones del mundo real se ve limitado por sus capacidades de generalización reducidas hacia nuevos dominios de imágenes. En este artículo, presentamos OmniGlue, el primer emparejador de imágenes aprendible diseñado con la generalización como principio fundamental. OmniGlue aprovecha el conocimiento amplio de un modelo base de visión para guiar el proceso de emparejamiento de características, mejorando la generalización a dominios no vistos durante el entrenamiento. Además, proponemos un novedoso mecanismo de atención guiado por la posición de puntos clave, que separa la información espacial y de apariencia, lo que conduce a descriptores de emparejamiento mejorados. Realizamos experimentos exhaustivos en un conjunto de 7 conjuntos de datos con diversos dominios de imágenes, incluyendo imágenes a nivel de escena, centradas en objetos y aéreas. Los componentes novedosos de OmniGlue logran ganancias relativas en dominios no vistos del 20.9% con respecto a un modelo de referencia directamente comparable, superando también al reciente método LightGlue en un 9.5% relativamente. El código y el modelo pueden encontrarse en https://hwjiang1510.github.io/OmniGlue.
English
The image matching field has been witnessing a continuous emergence of novel
learnable feature matching techniques, with ever-improving performance on
conventional benchmarks. However, our investigation shows that despite these
gains, their potential for real-world applications is restricted by their
limited generalization capabilities to novel image domains. In this paper, we
introduce OmniGlue, the first learnable image matcher that is designed with
generalization as a core principle. OmniGlue leverages broad knowledge from a
vision foundation model to guide the feature matching process, boosting
generalization to domains not seen at training time. Additionally, we propose a
novel keypoint position-guided attention mechanism which disentangles spatial
and appearance information, leading to enhanced matching descriptors. We
perform comprehensive experiments on a suite of 7 datasets with varied image
domains, including scene-level, object-centric and aerial images. OmniGlue's
novel components lead to relative gains on unseen domains of 20.9% with
respect to a directly comparable reference model, while also outperforming the
recent LightGlue method by 9.5% relatively.Code and model can be found at
https://hwjiang1510.github.io/OmniGlueSummary
AI-Generated Summary