ChatPaper.aiChatPaper

Curación de Modalidades: Construcción de Incrustaciones Universales para la Recuperación Avanzada de Información Multimodal

Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

May 26, 2025
Autores: Fanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng Zhang, Guorui Zhou
cs.AI

Resumen

La recuperación de información multimodal (MIR, por sus siglas en inglés) enfrenta desafíos inherentes debido a la heterogeneidad de las fuentes de datos y la complejidad de la alineación entre modalidades. Si bien estudios previos han identificado brechas modales en los espacios de características, un enfoque sistemático para abordar estos desafíos sigue sin explorarse. En este trabajo, presentamos UNITE, un marco universal que aborda estos desafíos a través de dos aspectos críticos pero poco explorados: la curación de datos y las configuraciones de entrenamiento conscientes de la modalidad. Nuestro trabajo proporciona el primer análisis exhaustivo de cómo las propiedades específicas de los datos de cada modalidad influyen en el rendimiento de tareas posteriores en diversos escenarios. Además, proponemos el Aprendizaje Contrastivo Enmascarado Consciente de la Modalidad (MAMCL, por sus siglas en inglés) para mitigar las relaciones competitivas entre las instancias de diferentes modalidades. Nuestro marco logra resultados de vanguardia en múltiples benchmarks de recuperación multimodal, superando a los métodos existentes por márgenes notables. A través de experimentos exhaustivos, demostramos que la curación estratégica de modalidades y los protocolos de entrenamiento personalizados son fundamentales para un aprendizaje robusto de representaciones entre modalidades. Este trabajo no solo avanza el rendimiento de MIR, sino que también proporciona un plan de base fundamental para futuras investigaciones en sistemas multimodales. Nuestro proyecto está disponible en https://friedrichor.github.io/projects/UNITE.
English
Multimodal information retrieval (MIR) faces inherent challenges due to the heterogeneity of data sources and the complexity of cross-modal alignment. While previous studies have identified modal gaps in feature spaces, a systematic approach to address these challenges remains unexplored. In this work, we introduce UNITE, a universal framework that tackles these challenges through two critical yet underexplored aspects: data curation and modality-aware training configurations. Our work provides the first comprehensive analysis of how modality-specific data properties influence downstream task performance across diverse scenarios. Moreover, we propose Modal-Aware Masked Contrastive Learning (MAMCL) to mitigate the competitive relationships among the instances of different modalities. Our framework achieves state-of-the-art results on multiple multimodal retrieval benchmarks, outperforming existing methods by notable margins. Through extensive experiments, we demonstrate that strategic modality curation and tailored training protocols are pivotal for robust cross-modal representation learning. This work not only advances MIR performance but also provides a foundational blueprint for future research in multimodal systems. Our project is available at https://friedrichor.github.io/projects/UNITE.

Summary

AI-Generated Summary

PDF42May 28, 2025