ChatPaper.aiChatPaper

OmniGlue: 파운데이션 모델 지도를 통한 일반화 가능한 특징 매칭

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21, 2024
저자: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI

초록

이미지 매칭 분야에서는 지속적으로 새로운 학습 가능한 특징 매칭 기술이 등장하며, 기존 벤치마크에서 점점 더 향상된 성능을 보여주고 있습니다. 그러나 우리의 조사에 따르면, 이러한 성능 향상에도 불구하고 실제 응용 프로그램에서의 잠재력은 새로운 이미지 도메인에 대한 제한된 일반화 능력으로 인해 제약을 받고 있습니다. 본 논문에서는 일반화를 핵심 원칙으로 설계된 최초의 학습 가능한 이미지 매처인 OmniGlue를 소개합니다. OmniGlue는 비전 파운데이션 모델의 광범위한 지식을 활용하여 특징 매칭 프로세스를 안내함으로써, 훈련 시점에 보지 못한 도메인에 대한 일반화를 강화합니다. 또한, 공간 정보와 외형 정보를 분리하여 향상된 매칭 디스크립터를 생성하는 새로운 키포인트 위치 기반 어텐션 메커니즘을 제안합니다. 우리는 장면 수준, 객체 중심, 항공 이미지 등 다양한 이미지 도메인을 포함한 7개의 데이터셋에 대해 포괄적인 실험을 수행했습니다. OmniGlue의 새로운 구성 요소는 직접 비교 가능한 참조 모델 대비 보이지 않는 도메인에서 20.9%의 상대적 성능 향상을 이끌어냈으며, 최근의 LightGlue 방법보다도 9.5% 상대적으로 더 나은 성능을 보였습니다. 코드와 모델은 https://hwjiang1510.github.io/OmniGlue에서 확인할 수 있습니다.
English
The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of 7 datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of 20.9% with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by 9.5% relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue

Summary

AI-Generated Summary

PDF122December 15, 2024