MatchAnything : Appariement d'Images Universel Intermodalités avec Pré-Entraînement à Grande Échelle
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training
January 13, 2025
Auteurs: Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
cs.AI
Résumé
La correspondance d'images, qui vise à identifier les emplacements de pixels correspondants entre les images, est cruciale dans un large éventail de disciplines scientifiques, aidant à l'enregistrement, la fusion et l'analyse d'images. Ces dernières années, les algorithmes de correspondance d'images basés sur l'apprentissage profond ont largement surpassé les humains en trouvant rapidement et avec précision de grandes quantités de correspondances. Cependant, lorsqu'il s'agit d'images capturées sous différentes modalités d'imagerie entraînant des changements d'apparence significatifs, les performances de ces algorithmes se détériorent souvent en raison de la rareté des données d'entraînement croisées annotées. Cette limitation entrave les applications dans divers domaines qui dépendent de plusieurs modalités d'image pour obtenir des informations complémentaires. Pour relever ce défi, nous proposons un cadre de pré-entraînement à grande échelle qui utilise des signaux d'entraînement croisés synthétiques, incorporant des données diverses de différentes sources, pour entraîner des modèles à reconnaître et à mettre en correspondance des structures fondamentales à travers les images. Cette capacité est transférable à des tâches de correspondance d'images croisées du monde réel et non vues. Notre découverte clé est que le modèle de correspondance entraîné avec notre cadre atteint une remarquable généralisabilité à travers plus de huit tâches de recalage croisé de modalités non vues en utilisant le même poids de réseau, surpassant considérablement les méthodes existantes, qu'elles soient conçues pour la généralisation ou adaptées à des tâches spécifiques. Cette avancée améliore significativement l'applicabilité des technologies de correspondance d'images dans diverses disciplines scientifiques et ouvre la voie à de nouvelles applications dans l'analyse multi-modalité de l'intelligence humaine et artificielle, et au-delà.
English
Image matching, which aims to identify corresponding pixel locations between
images, is crucial in a wide range of scientific disciplines, aiding in image
registration, fusion, and analysis. In recent years, deep learning-based image
matching algorithms have dramatically outperformed humans in rapidly and
accurately finding large amounts of correspondences. However, when dealing with
images captured under different imaging modalities that result in significant
appearance changes, the performance of these algorithms often deteriorates due
to the scarcity of annotated cross-modal training data. This limitation hinders
applications in various fields that rely on multiple image modalities to obtain
complementary information. To address this challenge, we propose a large-scale
pre-training framework that utilizes synthetic cross-modal training signals,
incorporating diverse data from various sources, to train models to recognize
and match fundamental structures across images. This capability is transferable
to real-world, unseen cross-modality image matching tasks. Our key finding is
that the matching model trained with our framework achieves remarkable
generalizability across more than eight unseen cross-modality registration
tasks using the same network weight, substantially outperforming existing
methods, whether designed for generalization or tailored for specific tasks.
This advancement significantly enhances the applicability of image matching
technologies across various scientific disciplines and paves the way for new
applications in multi-modality human and artificial intelligence analysis and
beyond.Summary
AI-Generated Summary