Verbesserung von multimodalen mehrsprachigen Einbettungen durch hochwertige synthetische Daten
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
Autoren: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
Zusammenfassung
Multimodale Einbettungsmodelle haben erhebliche Aufmerksamkeit erlangt, da sie in der Lage sind, Daten aus verschiedenen Modalitäten wie Text und Bilder in einen vereinheitlichten Darstellungsraum abzubilden. Allerdings behindert die begrenzte beschriftete multimodale Datenmenge oft die Einbettungsleistung. Aktuelle Ansätze haben die Datensynthese genutzt, um dieses Problem anzugehen, doch die Qualität synthetischer Daten bleibt ein kritischer Engpass. In dieser Arbeit identifizieren wir drei Kriterien für hochwertige synthetische multimodale Daten. Erstens gewährleistet ein breiter Anwendungsbereich, dass die generierten Daten verschiedene Aufgaben und Modalitäten abdecken und somit für verschiedene nachgelagerte Szenarien anwendbar sind. Zweitens sorgt eine robuste kreuzmodale Ausrichtung dafür, dass verschiedene Modalitäten semantisch konsistent sind. Drittens gewährleistet eine hohe Treue, dass die synthetischen Daten realistische Details beibehalten, um ihre Zuverlässigkeit zu erhöhen. Geführt von diesen Prinzipien synthetisieren wir Datensätze, die: (1) eine Vielzahl von Aufgaben, Modalitätskombinationen und Sprachen abdecken, (2) durch einen tiefgreifenden Denkprozess innerhalb eines einzigen Durchlaufs eines multimodalen großen Sprachmodells generiert werden und (3) reale Bilder mit genauen und relevanten Texten integrieren, um die Treue durch Selbstbewertung und Verfeinerung sicherzustellen. Durch die Nutzung dieser hochwertigen synthetischen und beschrifteten Datensätze trainieren wir ein multimodales mehrsprachiges E5-Modell mmE5. Umfangreiche Experimente zeigen, dass mmE5 eine Spitzenleistung auf dem MMEB-Benchmark erzielt und eine überlegene mehrsprachige Leistung auf dem XTD-Benchmark aufweist. Unsere Codes, Datensätze und Modelle sind unter https://github.com/haon-chen/mmE5 veröffentlicht.
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary