Multilinguale E5-Text-Embeddings: Ein technischer Bericht
Multilingual E5 Text Embeddings: A Technical Report
February 8, 2024
Autoren: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI
Zusammenfassung
Dieser technische Bericht stellt die Trainingsmethodik und Evaluierungsergebnisse der Open-Source-Multilingual-E5-Text-Embedding-Modelle vor, die Mitte 2023 veröffentlicht wurden. Es werden drei Embedding-Modelle unterschiedlicher Größe (small / base / large) bereitgestellt, die einen Ausgleich zwischen Inferenzeffizienz und Embedding-Qualität bieten. Das Trainingsverfahren folgt dem Rezept des englischen E5-Modells und umfasst kontrastives Vortraining anhand von 1 Milliarde mehrsprachiger Textpaare, gefolgt von Feinabstimmung auf einer Kombination annotierter Datensätze. Zusätzlich führen wir ein neues, instruktionsfeinabgestimmtes Embedding-Modell ein, dessen Leistung mit state-of-the-art, ausschließlich englischsprachigen Modellen ähnlicher Größe vergleichbar ist. Informationen zur Modellveröffentlichung finden Sie unter https://github.com/microsoft/unilm/tree/master/e5.
English
This technical report presents the training methodology and evaluation
results of the open-source multilingual E5 text embedding models, released in
mid-2023. Three embedding models of different sizes (small / base / large) are
provided, offering a balance between the inference efficiency and embedding
quality. The training procedure adheres to the English E5 model recipe,
involving contrastive pre-training on 1 billion multilingual text pairs,
followed by fine-tuning on a combination of labeled datasets. Additionally, we
introduce a new instruction-tuned embedding model, whose performance is on par
with state-of-the-art, English-only models of similar sizes. Information
regarding the model release can be found at
https://github.com/microsoft/unilm/tree/master/e5 .