ChatPaper.aiChatPaper

MatchAnything : Appariement d'Images Universel Intermodalités avec Pré-Entraînement à Grande Échelle

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

January 13, 2025
Auteurs: Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
cs.AI

Résumé

La correspondance d'images, qui vise à identifier les emplacements de pixels correspondants entre les images, est cruciale dans un large éventail de disciplines scientifiques, aidant à l'enregistrement, la fusion et l'analyse d'images. Ces dernières années, les algorithmes de correspondance d'images basés sur l'apprentissage profond ont largement surpassé les humains en trouvant rapidement et avec précision de grandes quantités de correspondances. Cependant, lorsqu'il s'agit d'images capturées sous différentes modalités d'imagerie entraînant des changements d'apparence significatifs, les performances de ces algorithmes se détériorent souvent en raison de la rareté des données d'entraînement croisées annotées. Cette limitation entrave les applications dans divers domaines qui dépendent de plusieurs modalités d'image pour obtenir des informations complémentaires. Pour relever ce défi, nous proposons un cadre de pré-entraînement à grande échelle qui utilise des signaux d'entraînement croisés synthétiques, incorporant des données diverses de différentes sources, pour entraîner des modèles à reconnaître et à mettre en correspondance des structures fondamentales à travers les images. Cette capacité est transférable à des tâches de correspondance d'images croisées du monde réel et non vues. Notre découverte clé est que le modèle de correspondance entraîné avec notre cadre atteint une remarquable généralisabilité à travers plus de huit tâches de recalage croisé de modalités non vues en utilisant le même poids de réseau, surpassant considérablement les méthodes existantes, qu'elles soient conçues pour la généralisation ou adaptées à des tâches spécifiques. Cette avancée améliore significativement l'applicabilité des technologies de correspondance d'images dans diverses disciplines scientifiques et ouvre la voie à de nouvelles applications dans l'analyse multi-modalité de l'intelligence humaine et artificielle, et au-delà.
English
Image matching, which aims to identify corresponding pixel locations between images, is crucial in a wide range of scientific disciplines, aiding in image registration, fusion, and analysis. In recent years, deep learning-based image matching algorithms have dramatically outperformed humans in rapidly and accurately finding large amounts of correspondences. However, when dealing with images captured under different imaging modalities that result in significant appearance changes, the performance of these algorithms often deteriorates due to the scarcity of annotated cross-modal training data. This limitation hinders applications in various fields that rely on multiple image modalities to obtain complementary information. To address this challenge, we propose a large-scale pre-training framework that utilizes synthetic cross-modal training signals, incorporating diverse data from various sources, to train models to recognize and match fundamental structures across images. This capability is transferable to real-world, unseen cross-modality image matching tasks. Our key finding is that the matching model trained with our framework achieves remarkable generalizability across more than eight unseen cross-modality registration tasks using the same network weight, substantially outperforming existing methods, whether designed for generalization or tailored for specific tasks. This advancement significantly enhances the applicability of image matching technologies across various scientific disciplines and paves the way for new applications in multi-modality human and artificial intelligence analysis and beyond.

Summary

AI-Generated Summary

PDF63January 15, 2025