mmE5 : Amélioration des plongements multimodaux multilingues grâce à des données synthétiques de haute qualité
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
Auteurs: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
Résumé
Les modèles d'incorporation multimodale ont attiré une attention significative pour leur capacité à mapper des données provenant de différentes modalités, telles que le texte et les images, dans un espace de représentation unifié. Cependant, le manque de données multimodales étiquetées limite souvent les performances de l'incorporation. Des approches récentes ont exploité la synthèse de données pour résoudre ce problème, mais la qualité des données synthétiques reste un goulot d'étranglement critique. Dans ce travail, nous identifions trois critères pour des données multimodales synthétiques de haute qualité. Premièrement, une portée large garantit que les données générées couvrent diverses tâches et modalités, les rendant applicables à divers scénarios en aval. Deuxièmement, un alignement croisé robuste entre les modalités rend les différentes modalités sémantiquement cohérentes. Troisièmement, une haute fidélité garantit que les données synthétiques conservent des détails réalistes pour améliorer leur fiabilité. Guidés par ces principes, nous synthétisons des ensembles de données qui : (1) couvrent une large gamme de tâches, de combinaisons de modalités et de langues, (2) sont générés via un processus de réflexion approfondie dans un seul passage d'un grand modèle de langage multimodal, et (3) intègrent des images du monde réel avec des textes précis et pertinents, garantissant la fidélité par auto-évaluation et raffinement. En exploitant ces ensembles de données synthétiques et étiquetés de haute qualité, nous entraînons un modèle E5 multimodal multilingue mmE5. Des expériences approfondies montrent que mmE5 atteint des performances de pointe sur le benchmark MMEB et des performances multilingues supérieures sur le benchmark XTD. Nos codes, ensembles de données et modèles sont disponibles sur https://github.com/haon-chen/mmE5.
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary