mmE5: Melhorando os Incorporamentos Multimodais Multilíngues por meio de Dados Sintéticos de Alta Qualidade
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
Autores: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
Resumo
Os modelos de incorporação multimodal têm recebido significativa atenção por sua capacidade de mapear dados de diferentes modalidades, como texto e imagens, em um espaço de representação unificado. No entanto, a limitação de dados multimodais rotulados frequentemente prejudica o desempenho da incorporação. Abordagens recentes têm utilizado a síntese de dados para lidar com esse problema, no entanto, a qualidade dos dados sintéticos permanece um gargalo crítico. Neste trabalho, identificamos três critérios para dados multimodais sintéticos de alta qualidade. Primeiramente, a amplitude garante que os dados gerados cubram diversas tarefas e modalidades, tornando-os aplicáveis a vários cenários subsequentes. Em segundo lugar, o alinhamento robusto entre modalidades diferentes torna-as semanticamente consistentes. Em terceiro lugar, a alta fidelidade garante que os dados sintéticos mantenham detalhes realistas para aprimorar sua confiabilidade. Guiados por esses princípios, sintetizamos conjuntos de dados que: (1) abrangem uma ampla gama de tarefas, combinações de modalidades e idiomas, (2) são gerados por meio de um processo de pensamento profundo em uma única passagem de um grande modelo de linguagem multimodal e (3) incorporam imagens do mundo real com textos precisos e relevantes, garantindo fidelidade por meio de autoavaliação e refinamento. Aproveitando esses conjuntos de dados sintéticos e rotulados de alta qualidade, treinamos um modelo E5 multimodal multilíngue mmE5. Experimentos extensivos demonstram que o mmE5 alcança um desempenho de ponta no Benchmark MMEB e um desempenho multilíngue superior no benchmark XTD. Nossos códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/haon-chen/mmE5.
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary