ChatPaper.aiChatPaper

MINIMA: Coincidencia de Imágenes Invariante a la Modalidad

MINIMA: Modality Invariant Image Matching

December 27, 2024
Autores: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI

Resumen

La coincidencia de imágenes tanto para vistas cruzadas como para modalidades cruzadas desempeña un papel crítico en la percepción multimodal. En la práctica, la brecha de modalidad causada por diferentes sistemas/estilos de imagen plantea grandes desafíos para la tarea de coincidencia. Los trabajos existentes intentan extraer características invariantes para modalidades específicas y entrenar en conjuntos de datos limitados, mostrando una pobre generalización. En este documento, presentamos MINIMA, un marco unificado de coincidencia de imágenes para múltiples casos cruzados de modalidad. Sin perseguir módulos sofisticados, nuestro MINIMA tiene como objetivo mejorar el rendimiento universal desde la perspectiva de la ampliación de datos. Con este propósito, proponemos un motor de datos simple pero efectivo que puede producir libremente un gran conjunto de datos que contenga múltiples modalidades, escenarios variados y etiquetas de coincidencia precisas. Específicamente, escalamos las modalidades desde datos de coincidencia solo RGB económicos pero ricos, mediante modelos generativos. Bajo esta configuración, las etiquetas de coincidencia y la rica diversidad del conjunto de datos RGB son heredadas por los datos multimodales generados. Beneficiándonos de esto, construimos MD-syn, un nuevo conjunto de datos integral que llena la brecha de datos para la coincidencia de imágenes multimodales generales. Con MD-syn, podemos entrenar directamente cualquier canalización de coincidencia avanzada en pares de modalidades seleccionados al azar para obtener capacidad cruzada de modalidad. Experimentos extensos en tareas de coincidencia dentro del dominio y de cero disparo, incluidos 19 casos cruzados de modalidad, demuestran que nuestro MINIMA puede superar significativamente a las líneas de base e incluso superar a los métodos específicos de modalidad. El conjunto de datos y el código están disponibles en https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role in multimodal perception. In practice, the modality gap caused by different imaging systems/styles poses great challenges to the matching task. Existing works try to extract invariant features for specific modalities and train on limited datasets, showing poor generalization. In this paper, we present MINIMA, a unified image matching framework for multiple cross-modal cases. Without pursuing fancy modules, our MINIMA aims to enhance universal performance from the perspective of data scaling up. For such purpose, we propose a simple yet effective data engine that can freely produce a large dataset containing multiple modalities, rich scenarios, and accurate matching labels. Specifically, we scale up the modalities from cheap but rich RGB-only matching data, by means of generative models. Under this setting, the matching labels and rich diversity of the RGB dataset are well inherited by the generated multimodal data. Benefiting from this, we construct MD-syn, a new comprehensive dataset that fills the data gap for general multimodal image matching. With MD-syn, we can directly train any advanced matching pipeline on randomly selected modality pairs to obtain cross-modal ability. Extensive experiments on in-domain and zero-shot matching tasks, including 19 cross-modal cases, demonstrate that our MINIMA can significantly outperform the baselines and even surpass modality-specific methods. The dataset and code are available at https://github.com/LSXI7/MINIMA .

Summary

AI-Generated Summary

PDF42January 16, 2025