Улучшение мультимодальных мультиязычных вложений с помощью высококачественных синтетических данных
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
Авторы: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
Аннотация
Модели мультимодальных вложений привлекли значительное внимание благодаря своей способности отображать данные из различных модальностей, таких как текст и изображения, в единое пространство представлений. Однако ограниченное количество размеченных мультимодальных данных часто затрудняет производительность вложений. Недавние подходы использовали синтез данных для решения этой проблемы, однако качество синтетических данных остается критическим узким местом. В данной работе мы выделяем три критерия для синтетических мультимодальных данных высокого качества. Во-первых, широкий охват гарантирует, что сгенерированные данные охватывают разнообразные задачи и модальности, что делает их применимыми к различным последующим сценариям. Во-вторых, устойчивая кросс-модальная выравнивание делает различные модальности семантически согласованными. В-третьих, высокая достоверность обеспечивает, что синтетические данные сохраняют реалистичные детали для улучшения их надежности. Руководствуясь этими принципами, мы синтезируем наборы данных, которые: (1) охватывают широкий спектр задач, комбинаций модальностей и языков, (2) генерируются с помощью глубокого мышления в рамках одного прохода мультиязычной модели большого размера, и (3) включают реальные изображения с точными и соответствующими текстами, обеспечивая достоверность через самооценку и усовершенствование. Используя эти высококачественные синтетические и размеченные наборы данных, мы обучаем мультиязычную мультимодальную модель E5 mmE5. Обширные эксперименты показывают, что mmE5 достигает передовой производительности на бенчмарке MMEB и превосходной мультиязычной производительности на бенчмарке XTD. Наши коды, наборы данных и модели доступны по ссылке https://github.com/haon-chen/mmE5.
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary