ChatPaper.aiChatPaper

OmniGlue: Corrispondenza di caratteristiche generalizzabile con guida da modelli fondazionali

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21, 2024
Autori: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI

Abstract

Il campo del matching di immagini ha assistito a una continua comparsa di nuove tecniche apprendibili per il matching di feature, con prestazioni in costante miglioramento sui benchmark convenzionali. Tuttavia, la nostra indagine mostra che, nonostante questi progressi, il loro potenziale per applicazioni nel mondo reale è limitato dalle loro capacità di generalizzazione limitate a nuovi domini di immagini. In questo articolo, introduciamo OmniGlue, il primo matcher di immagini apprendibile progettato con la generalizzazione come principio fondamentale. OmniGlue sfrutta una conoscenza ampia da un modello di fondazione visiva per guidare il processo di matching delle feature, migliorando la generalizzazione a domini non visti durante l'addestramento. Inoltre, proponiamo un nuovo meccanismo di attenzione guidato dalla posizione dei keypoint che separa le informazioni spaziali e di aspetto, portando a descrittori di matching migliorati. Eseguiamo esperimenti completi su una suite di 7 dataset con vari domini di immagini, inclusi immagini a livello di scena, centrate su oggetti e aeree. I componenti innovativi di OmniGlue portano a guadagni relativi su domini non visti del 20,9% rispetto a un modello di riferimento direttamente confrontabile, superando anche il recente metodo LightGlue del 9,5% in termini relativi. Codice e modello sono disponibili all'indirizzo https://hwjiang1510.github.io/OmniGlue.
English
The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of 7 datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of 20.9% with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by 9.5% relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
PDF122February 8, 2026