Улучшение мультимодальных мультиязычных вложений с помощью высококачественных синтетических данных

Аннотация

Модели мультимодальных вложений привлекли значительное внимание благодаря своей способности отображать данные из различных модальностей, таких как текст и изображения, в единое пространство представлений. Однако ограниченное количество размеченных мультимодальных данных часто затрудняет производительность вложений. Недавние подходы использовали синтез данных для решения этой проблемы, однако качество синтетических данных остается критическим узким местом. В данной работе мы выделяем три критерия для синтетических мультимодальных данных высокого качества. Во-первых, широкий охват гарантирует, что сгенерированные данные охватывают разнообразные задачи и модальности, что делает их применимыми к различным последующим сценариям. Во-вторых, устойчивая кросс-модальная выравнивание делает различные модальности семантически согласованными. В-третьих, высокая достоверность обеспечивает, что синтетические данные сохраняют реалистичные детали для улучшения их надежности. Руководствуясь этими принципами, мы синтезируем наборы данных, которые: (1) охватывают широкий спектр задач, комбинаций модальностей и языков, (2) генерируются с помощью глубокого мышления в рамках одного прохода мультиязычной модели большого размера, и (3) включают реальные изображения с точными и соответствующими текстами, обеспечивая достоверность через самооценку и усовершенствование. Используя эти высококачественные синтетические и размеченные наборы данных, мы обучаем мультиязычную мультимодальную модель E5 mmE5. Обширные эксперименты показывают, что mmE5 достигает передовой производительности на бенчмарке MMEB и превосходной мультиязычной производительности на бенчмарке XTD. Наши коды, наборы данных и модели доступны по ссылке https://github.com/haon-chen/mmE5.

English

Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.

Улучшение мультимодальных мультиязычных вложений с помощью высококачественных синтетических данных

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

Аннотация

Support