mmE5: Miglioramento degli Embedding Multimodali Multilingue tramite Dati Sintetici di Alta Qualità
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
Autori: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
Abstract
I modelli di incorporamento multimodale hanno guadagnato notevole attenzione per la loro capacità di mappare i dati da diverse modalità, come testo e immagini, in uno spazio di rappresentazione unificato. Tuttavia, i limitati dati multimodali etichettati spesso ostacolano le prestazioni dell'incorporamento. Approcci recenti hanno sfruttato la sintesi dei dati per affrontare questo problema, tuttavia la qualità dei dati sintetici rimane un collo di bottiglia critico. In questo lavoro, identifichiamo tre criteri per dati multimodali sintetici di alta qualità. In primo luogo, l'ampia portata garantisce che i dati generati coprano diverse attività e modalità, rendendoli applicabili a vari scenari successivi. In secondo luogo, un allineamento robusto tra modalità diverse rende semanticamente coerenti le diverse modalità. In terzo luogo, l'alta fedeltà garantisce che i dati sintetici mantengano dettagli realistici per migliorare la loro affidabilità. Guidati da questi principi, sintetizziamo set di dati che: (1) coprono una vasta gamma di attività, combinazioni di modalità e lingue, (2) sono generati tramite un processo di pensiero profondo all'interno di un singolo passaggio di un grande modello di linguaggio multimodale e (3) incorporano immagini del mondo reale con testi accurati e pertinenti, garantendo la fedeltà attraverso l'autovalutazione e il perfezionamento. Sfruttando questi set di dati sintetici e etichettati di alta qualità, addestriamo un modello mmE5 multimodale multilingue E5. Estesi esperimenti dimostrano che mmE5 raggiunge prestazioni all'avanguardia sul Benchmark MMEB e prestazioni multilingue superiori sul benchmark XTD. I nostri codici, set di dati e modelli sono rilasciati su https://github.com/haon-chen/mmE5.
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary