OmniGlue: Generalisierbares Merkmalsabgleichen mit Anleitung durch Grundlagenmodell
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
May 21, 2024
papers.authors: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
cs.AI
papers.abstract
Das Feld der Bildzuordnung verzeichnet eine kontinuierliche Entwicklung neuartiger erlernbarer Merkmalszuordnungstechniken, die eine stetige Leistungsverbesserung auf herkömmlichen Benchmarks zeigen. Unsere Untersuchung zeigt jedoch, dass trotz dieser Fortschritte ihr Potenzial für Anwendungen im echten Leben durch ihre begrenzten Verallgemeinerungsfähigkeiten auf neue Bildbereiche eingeschränkt ist. In diesem Artikel stellen wir OmniGlue vor, den ersten erlernbaren Bildzuordner, der mit der Verallgemeinerung als Kernprinzip konzipiert ist. OmniGlue nutzt breites Wissen aus einem Vision-Grundlagenmodell, um den Merkmalszuordnungsprozess zu lenken und die Verallgemeinerung auf Bereiche zu verbessern, die zur Trainingszeit nicht gesehen wurden. Darüber hinaus schlagen wir einen neuartigen Keypoint-Positions-gesteuerten Aufmerksamkeitsmechanismus vor, der räumliche und Erscheinungsinformationen entwirrt und zu verbesserten Zuordnungsbeschreibern führt. Wir führen umfassende Experimente an einer Reihe von 7 Datensätzen mit unterschiedlichen Bildbereichen durch, darunter Szenen-, objektorientierte und Luftbilder. Die neuartigen Komponenten von OmniGlue führen zu relativen Gewinnen in unbekannten Bereichen von 20,9% im Vergleich zu einem direkt vergleichbaren Referenzmodell und übertreffen auch die kürzlich vorgestellte LightGlue-Methode um 9,5% relativ. Code und Modell sind unter https://hwjiang1510.github.io/OmniGlue verfügbar.
English
The image matching field has been witnessing a continuous emergence of novel
learnable feature matching techniques, with ever-improving performance on
conventional benchmarks. However, our investigation shows that despite these
gains, their potential for real-world applications is restricted by their
limited generalization capabilities to novel image domains. In this paper, we
introduce OmniGlue, the first learnable image matcher that is designed with
generalization as a core principle. OmniGlue leverages broad knowledge from a
vision foundation model to guide the feature matching process, boosting
generalization to domains not seen at training time. Additionally, we propose a
novel keypoint position-guided attention mechanism which disentangles spatial
and appearance information, leading to enhanced matching descriptors. We
perform comprehensive experiments on a suite of 7 datasets with varied image
domains, including scene-level, object-centric and aerial images. OmniGlue's
novel components lead to relative gains on unseen domains of 20.9% with
respect to a directly comparable reference model, while also outperforming the
recent LightGlue method by 9.5% relatively.Code and model can be found at
https://hwjiang1510.github.io/OmniGlue