多言語E5テキスト埋め込み:技術報告書
Multilingual E5 Text Embeddings: A Technical Report
February 8, 2024
著者: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI
要旨
本技術報告書は、2023年半ばにリリースされたオープンソースの多言語E5テキスト埋め込みモデルのトレーニング手法と評価結果を提示する。異なるサイズ(small / base / large)の3つの埋め込みモデルが提供され、推論効率と埋め込み品質のバランスを実現している。トレーニング手順は、英語E5モデルのレシピに従い、10億の多言語テキストペアを用いた対照的な事前学習を行い、その後、ラベル付きデータセットの組み合わせによるファインチューニングを実施した。さらに、最新の英語専用モデルと同等の性能を発揮する新しい指示チューニング埋め込みモデルを紹介する。モデルリリースに関する情報は、https://github.com/microsoft/unilm/tree/master/e5 で確認できる。
English
This technical report presents the training methodology and evaluation
results of the open-source multilingual E5 text embedding models, released in
mid-2023. Three embedding models of different sizes (small / base / large) are
provided, offering a balance between the inference efficiency and embedding
quality. The training procedure adheres to the English E5 model recipe,
involving contrastive pre-training on 1 billion multilingual text pairs,
followed by fine-tuning on a combination of labeled datasets. Additionally, we
introduce a new instruction-tuned embedding model, whose performance is on par
with state-of-the-art, English-only models of similar sizes. Information
regarding the model release can be found at
https://github.com/microsoft/unilm/tree/master/e5 .