Représentations Textuelles Multilingues E5 : Un Rapport Technique
Multilingual E5 Text Embeddings: A Technical Report
February 8, 2024
Auteurs: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI
Résumé
Ce rapport technique présente la méthodologie d'entraînement et les résultats d'évaluation des modèles d'encodage de texte multilingues E5 open-source, publiés mi-2023. Trois modèles d'encodage de tailles différentes (petit / base / grand) sont proposés, offrant un équilibre entre l'efficacité d'inférence et la qualité des encodages. La procédure d'entraînement suit la recette du modèle E5 en anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison de jeux de données étiquetés. De plus, nous introduisons un nouveau modèle d'encodage ajusté par instructions, dont les performances sont comparables à celles des modèles de pointe monolingues (anglais uniquement) de tailles similaires. Les informations concernant la publication des modèles sont disponibles à l'adresse suivante : https://github.com/microsoft/unilm/tree/master/e5.
English
This technical report presents the training methodology and evaluation
results of the open-source multilingual E5 text embedding models, released in
mid-2023. Three embedding models of different sizes (small / base / large) are
provided, offering a balance between the inference efficiency and embedding
quality. The training procedure adheres to the English E5 model recipe,
involving contrastive pre-training on 1 billion multilingual text pairs,
followed by fine-tuning on a combination of labeled datasets. Additionally, we
introduce a new instruction-tuned embedding model, whose performance is on par
with state-of-the-art, English-only models of similar sizes. Information
regarding the model release can be found at
https://github.com/microsoft/unilm/tree/master/e5 .