Modalitätskuratierung: Aufbau universeller Einbettungen für fortschrittliche multimodale Informationsbeschaffung
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval
May 26, 2025
Autoren: Fanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng Zhang, Guorui Zhou
cs.AI
Zusammenfassung
Die multimodale Informationsrückgewinnung (Multimodal Information Retrieval, MIR) steht vor inhärenten Herausforderungen aufgrund der Heterogenität der Datenquellen und der Komplexität der cross-modalen Ausrichtung. Während frühere Studien modale Lücken in Merkmalsräumen identifiziert haben, bleibt ein systematischer Ansatz zur Bewältigung dieser Herausforderungen unerforscht. In dieser Arbeit stellen wir UNITE vor, ein universelles Framework, das diese Herausforderungen durch zwei kritische, aber bisher wenig erforschte Aspekte angeht: Datenkuratierung und modalitätsbewusste Trainingskonfigurationen. Unsere Arbeit bietet die erste umfassende Analyse, wie modalitätsspezifische Dateneigenschaften die Leistung nachgelagerter Aufgaben in verschiedenen Szenarien beeinflussen. Darüber hinaus schlagen wir Modal-Aware Masked Contrastive Learning (MAMCL) vor, um die konkurrierenden Beziehungen zwischen den Instanzen verschiedener Modalitäten zu mildern. Unser Framework erzielt state-of-the-art Ergebnisse auf mehreren multimodalen Retrieval-Benchmarks und übertrifft bestehende Methoden mit bemerkenswerten Abständen. Durch umfangreiche Experimente zeigen wir, dass strategische Modalitätskuratierung und maßgeschneiderte Trainingsprotokolle entscheidend für robustes cross-modales Repräsentationslernen sind. Diese Arbeit verbessert nicht nur die MIR-Leistung, sondern bietet auch einen grundlegenden Leitfaden für zukünftige Forschung in multimodalen Systemen. Unser Projekt ist verfügbar unter https://friedrichor.github.io/projects/UNITE.
English
Multimodal information retrieval (MIR) faces inherent challenges due to the
heterogeneity of data sources and the complexity of cross-modal alignment.
While previous studies have identified modal gaps in feature spaces, a
systematic approach to address these challenges remains unexplored. In this
work, we introduce UNITE, a universal framework that tackles these challenges
through two critical yet underexplored aspects: data curation and
modality-aware training configurations. Our work provides the first
comprehensive analysis of how modality-specific data properties influence
downstream task performance across diverse scenarios. Moreover, we propose
Modal-Aware Masked Contrastive Learning (MAMCL) to mitigate the competitive
relationships among the instances of different modalities. Our framework
achieves state-of-the-art results on multiple multimodal retrieval benchmarks,
outperforming existing methods by notable margins. Through extensive
experiments, we demonstrate that strategic modality curation and tailored
training protocols are pivotal for robust cross-modal representation learning.
This work not only advances MIR performance but also provides a foundational
blueprint for future research in multimodal systems. Our project is available
at https://friedrichor.github.io/projects/UNITE.Summary
AI-Generated Summary