mmE5:高品質な合成データを介したマルチモーダル多言語埋め込みの改善
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
February 12, 2025
著者: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI
要旨
マルチモーダル埋め込みモデルは、テキストや画像など異なるモダリティのデータを統一された表現空間にマッピングする能力から、注目を集めています。ただし、限られたラベル付きマルチモーダルデータは、埋め込みの性能を妨げることが多いです。最近のアプローチでは、この問題に対処するためにデータ合成を活用していますが、合成データの品質は依然として重要なボトルネックです。本研究では、高品質な合成マルチモーダルデータのための3つの基準を特定しています。第一に、広範囲のスコープは生成されたデータが多様なタスクやモダリティをカバーし、さまざまな下流シナリオに適用可能であることを保証します。第二に、堅牢なクロスモーダルアラインメントは、異なるモダリティが意味的に一貫していることを確保します。第三に、高い忠実度は、合成データがリアルな詳細を維持し信頼性を高めることを保証します。これらの原則に従い、私たちは以下のようなデータセットを合成しています:(1)幅広いタスク、モダリティの組み合わせ、言語をカバーし、(2)マルチモーダル大規模言語モデルの単一パス内で深い思考プロセスを経て生成され、(3)正確で関連性のあるテキストとリアルな画像を取り入れ、自己評価と改良を通じて忠実度を確保しています。これらの高品質な合成およびラベル付きデータセットを活用して、私たちはマルチモーダル多言語E5モデルmmE5を訓練しています。包括的な実験により、mmE5がMMEBベンチマークで最先端の性能を達成し、XTDベンチマークで優れた多言語性能を発揮することが示されています。私たちのコード、データセット、モデルはhttps://github.com/haon-chen/mmE5 で公開されています。
English
Multimodal embedding models have gained significant attention for their
ability to map data from different modalities, such as text and images, into a
unified representation space. However, the limited labeled multimodal data
often hinders embedding performance. Recent approaches have leveraged data
synthesis to address this problem, yet the quality of synthetic data remains a
critical bottleneck. In this work, we identify three criteria for high-quality
synthetic multimodal data. First, broad scope ensures that the generated data
covers diverse tasks and modalities, making it applicable to various downstream
scenarios. Second, robust cross-modal alignment makes different modalities
semantically consistent. Third, high fidelity ensures that the synthetic data
maintains realistic details to enhance its reliability. Guided by these
principles, we synthesize datasets that: (1) cover a wide range of tasks,
modality combinations, and languages, (2) are generated via a deep thinking
process within a single pass of a multimodal large language model, and (3)
incorporate real-world images with accurate and relevant texts, ensuring
fidelity through self-evaluation and refinement. Leveraging these high-quality
synthetic and labeled datasets, we train a multimodal multilingual E5 model
mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art
performance on the MMEB Benchmark and superior multilingual performance on the
XTD benchmark. Our codes, datasets and models are released in
https://github.com/haon-chen/mmE5.Summary
AI-Generated Summary