ChatPaper.aiChatPaper

Verbeteren van multimodale meertalige embeddings via hoogwaardige synthetische data

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

February 12, 2025
Auteurs: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI

Samenvatting

Multimodale insluitingsmodellen hebben aanzienlijke aandacht gekregen vanwege hun vermogen om gegevens van verschillende modaliteiten, zoals tekst en afbeeldingen, in een verenigde representatieruimte in kaart te brengen. De beperkte gelabelde multimodale gegevens belemmeren echter vaak de prestaties van de insluiting. Recente benaderingen hebben gegevenssynthese ingezet om dit probleem aan te pakken, maar de kwaliteit van synthetische gegevens blijft een kritieke bottleneck. In dit werk identificeren we drie criteria voor hoogwaardige synthetische multimodale gegevens. Ten eerste zorgt een breed scala ervoor dat de gegenereerde gegevens diverse taken en modaliteiten bestrijken, waardoor ze toepasbaar zijn in verschillende downstream scenario's. Ten tweede zorgt robuuste crossmodale uitlijning ervoor dat verschillende modaliteiten semantisch consistent zijn. Ten derde zorgt hoge geloofwaardigheid ervoor dat de synthetische gegevens realistische details behouden om de betrouwbaarheid te verbeteren. Geleid door deze principes synthetiseren we datasets die: (1) een breed scala aan taken, modaliteitscombinaties en talen bestrijken, (2) worden gegenereerd via een diepgaand denkproces binnen één doorgang van een multimodaal groot taalmodel, en (3) echte afbeeldingen bevatten met nauwkeurige en relevante teksten, waarbij geloofwaardigheid wordt gewaarborgd door zelfevaluatie en verfijning. Door gebruik te maken van deze hoogwaardige synthetische en gelabelde datasets trainen we een multimodaal meertalig E5-model mmE5. Uitgebreide experimenten tonen aan dat mmE5 state-of-the-art prestaties behaalt op de MMEB Benchmark en superieure meertalige prestaties op de XTD-benchmark. Onze codes, datasets en modellen zijn vrijgegeven op https://github.com/haon-chen/mmE5.
English
Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.

Summary

AI-Generated Summary

PDF132February 14, 2025