ChatPaper.aiChatPaper

OmniGlue: Generaliseerbare kenmerkvergelijking met begeleiding van fundamentele modellen

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21, 2024
Auteurs: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI

Samenvatting

Het vakgebied van beeldmatching heeft een voortdurende opkomst gezien van nieuwe leerbare technieken voor feature matching, met steeds betere prestaties op conventionele benchmarks. Uit ons onderzoek blijkt echter dat, ondanks deze vooruitgang, hun potentieel voor real-world toepassingen beperkt wordt door hun beperkte generalisatievermogen naar nieuwe beelddomeinen. In dit artikel introduceren we OmniGlue, de eerste leerbare beeldmatcher die is ontworpen met generalisatie als een kernprincipe. OmniGlue maakt gebruik van brede kennis uit een vision foundation model om het feature matching-proces te begeleiden, wat de generalisatie naar domeinen die niet tijdens de training zijn gezien, verbetert. Daarnaast stellen we een nieuw aandachtmechanisme voor dat wordt geleid door keypoint-posities, waardoor ruimtelijke en uiterlijke informatie worden ontward, wat leidt tot verbeterde matching descriptors. We voeren uitgebreide experimenten uit op een reeks van 7 datasets met verschillende beelddomeinen, waaronder scene-level, objectgerichte en luchtfoto's. De nieuwe componenten van OmniGlue leiden tot relatieve verbeteringen van 20,9% op onbekende domeinen ten opzichte van een direct vergelijkbaar referentiemodel, terwijl het ook de recente LightGlue-methode relatief met 9,5% overtreft. Code en model zijn te vinden op https://hwjiang1510.github.io/OmniGlue.
English
The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of 7 datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of 20.9% with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by 9.5% relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
PDF122February 8, 2026