ChatPaper.aiChatPaper

MINIMA : Appariement d'Images Invariant aux Modalités

MINIMA: Modality Invariant Image Matching

December 27, 2024
Auteurs: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI

Résumé

La correspondance d'images pour les vues croisées et les modalités croisées joue un rôle crucial dans la perception multimodale. En pratique, l'écart de modalité causé par les différents systèmes/styles d'imagerie pose de grands défis à la tâche de correspondance. Les travaux existants tentent d'extraire des caractéristiques invariantes pour des modalités spécifiques et de s'entraîner sur des ensembles de données limités, montrant une faible généralisation. Dans cet article, nous présentons MINIMA, un cadre unifié de correspondance d'images pour plusieurs cas croisés de modalités. Sans rechercher des modules sophistiqués, notre MINIMA vise à améliorer les performances universelles du point de vue de l'augmentation des données. Dans ce but, nous proposons un moteur de données simple mais efficace qui peut librement produire un grand ensemble de données contenant plusieurs modalités, des scénarios riches et des étiquettes de correspondance précises. Plus précisément, nous augmentons les modalités à partir de données de correspondance RGB uniquement bon marché mais riches, au moyen de modèles génératifs. Dans ce cadre, les étiquettes de correspondance et la diversité riche de l'ensemble de données RGB sont bien héritées par les données multimodales générées. En tirant parti de cela, nous construisons MD-syn, un nouvel ensemble de données complet qui comble le fossé de données pour la correspondance d'images multimodale générale. Avec MD-syn, nous pouvons entraîner directement n'importe quel pipeline de correspondance avancé sur des paires de modalités sélectionnées de manière aléatoire pour obtenir une capacité croisée des modalités. Des expériences approfondies sur des tâches de correspondance dans le domaine et de correspondance à zéro, comprenant 19 cas croisés de modalités, démontrent que notre MINIMA peut surpasser significativement les bases et même dépasser les méthodes spécifiques aux modalités. L'ensemble de données et le code sont disponibles sur https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role in multimodal perception. In practice, the modality gap caused by different imaging systems/styles poses great challenges to the matching task. Existing works try to extract invariant features for specific modalities and train on limited datasets, showing poor generalization. In this paper, we present MINIMA, a unified image matching framework for multiple cross-modal cases. Without pursuing fancy modules, our MINIMA aims to enhance universal performance from the perspective of data scaling up. For such purpose, we propose a simple yet effective data engine that can freely produce a large dataset containing multiple modalities, rich scenarios, and accurate matching labels. Specifically, we scale up the modalities from cheap but rich RGB-only matching data, by means of generative models. Under this setting, the matching labels and rich diversity of the RGB dataset are well inherited by the generated multimodal data. Benefiting from this, we construct MD-syn, a new comprehensive dataset that fills the data gap for general multimodal image matching. With MD-syn, we can directly train any advanced matching pipeline on randomly selected modality pairs to obtain cross-modal ability. Extensive experiments on in-domain and zero-shot matching tasks, including 19 cross-modal cases, demonstrate that our MINIMA can significantly outperform the baselines and even surpass modality-specific methods. The dataset and code are available at https://github.com/LSXI7/MINIMA .

Summary

AI-Generated Summary

PDF42January 16, 2025