OmniGlue: Emparejamiento de características generalizable con guía de modelos fundacionales

Resumen

El campo de emparejamiento de imágenes ha sido testigo de la continua aparición de nuevas técnicas aprendibles para el emparejamiento de características, con un rendimiento cada vez mejor en los benchmarks convencionales. Sin embargo, nuestra investigación muestra que, a pesar de estos avances, su potencial para aplicaciones del mundo real se ve limitado por sus capacidades de generalización reducidas hacia nuevos dominios de imágenes. En este artículo, presentamos OmniGlue, el primer emparejador de imágenes aprendible diseñado con la generalización como principio fundamental. OmniGlue aprovecha el conocimiento amplio de un modelo base de visión para guiar el proceso de emparejamiento de características, mejorando la generalización a dominios no vistos durante el entrenamiento. Además, proponemos un novedoso mecanismo de atención guiado por la posición de puntos clave, que separa la información espacial y de apariencia, lo que conduce a descriptores de emparejamiento mejorados. Realizamos experimentos exhaustivos en un conjunto de 7 conjuntos de datos con diversos dominios de imágenes, incluyendo imágenes a nivel de escena, centradas en objetos y aéreas. Los componentes novedosos de OmniGlue logran ganancias relativas en dominios no vistos del 20.9% con respecto a un modelo de referencia directamente comparable, superando también al reciente método LightGlue en un 9.5% relativamente. El código y el modelo pueden encontrarse en https://hwjiang1510.github.io/OmniGlue.

English

The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of 7 datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of 20.9% with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by 9.5% relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue

OmniGlue: Emparejamiento de características generalizable con guía de modelos fundacionales

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

Resumen

Support