Mejorando incrustaciones multimodales multilingües a través de datos sintéticos de alta calidad
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
Autores: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
Resumen
Los modelos de incrustación multimodal han ganado una atención significativa por su capacidad de mapear datos de diferentes modalidades, como texto e imágenes, en un espacio de representación unificado. Sin embargo, la limitada cantidad de datos multimodales etiquetados a menudo obstaculiza el rendimiento de la incrustación. Enfoques recientes han aprovechado la síntesis de datos para abordar este problema, aunque la calidad de los datos sintéticos sigue siendo un cuello de botella crítico. En este trabajo, identificamos tres criterios para datos multimodales sintéticos de alta calidad. En primer lugar, un alcance amplio asegura que los datos generados cubran diversas tareas y modalidades, lo que los hace aplicables a varios escenarios posteriores. En segundo lugar, una alineación robusta entre modalidades hace que las diferentes modalidades sean semánticamente consistentes. En tercer lugar, una alta fidelidad garantiza que los datos sintéticos mantengan detalles realistas para mejorar su confiabilidad. Guiados por estos principios, sintetizamos conjuntos de datos que: (1) abarcan una amplia gama de tareas, combinaciones de modalidades e idiomas, (2) son generados a través de un proceso de pensamiento profundo dentro de un único pase de un gran modelo de lenguaje multimodal, y (3) incorporan imágenes del mundo real con textos precisos y relevantes, asegurando la fidelidad a través de la autoevaluación y el perfeccionamiento. Aprovechando estos conjuntos de datos sintéticos y etiquetados de alta calidad, entrenamos un modelo mmE5 multimodal multilingüe. Experimentos extensos demuestran que mmE5 logra un rendimiento de vanguardia en el Benchmark MMEB y un rendimiento multilingüe superior en el benchmark XTD. Nuestros códigos, conjuntos de datos y modelos se encuentran disponibles en https://github.com/haon-chen/mmE5.
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary