ChatPaper.aiChatPaper

OmniGlue : Appariement de caractéristiques généralisable guidé par un modèle de fondation

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21, 2024
papers.authors: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI

papers.abstract

Le domaine de la mise en correspondance d'images a été témoin d'une émergence continue de nouvelles techniques apprenables de mise en correspondance de caractéristiques, avec des performances sans cesse améliorées sur les benchmarks conventionnels. Cependant, notre investigation montre que malgré ces progrès, leur potentiel pour des applications réelles est limité par leurs capacités de généralisation restreintes à de nouveaux domaines d'images. Dans cet article, nous présentons OmniGlue, le premier matcher d'images apprenable conçu avec la généralisation comme principe fondamental. OmniGlue exploite des connaissances étendues provenant d'un modèle de fondation en vision pour guider le processus de mise en correspondance des caractéristiques, améliorant ainsi la généralisation à des domaines non vus pendant l'entraînement. De plus, nous proposons un nouveau mécanisme d'attention guidé par la position des points clés qui dissocie les informations spatiales et d'apparence, conduisant à des descripteurs de correspondance améliorés. Nous effectuons des expériences approfondies sur une suite de 7 jeux de données couvrant divers domaines d'images, incluant des images de scènes, centrées sur des objets et aériennes. Les composants novateurs d'OmniGlue entraînent des gains relatifs de 20,9 % sur des domaines non vus par rapport à un modèle de référence directement comparable, tout en surpassant également la méthode récente LightGlue de 9,5 % en termes relatifs. Le code et le modèle sont disponibles à l'adresse suivante : https://hwjiang1510.github.io/OmniGlue
English
The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of 7 datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of 20.9% with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by 9.5% relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
PDF122December 15, 2024