ChatPaper.aiChatPaper

Représentations Textuelles Multilingues E5 : Un Rapport Technique

Multilingual E5 Text Embeddings: A Technical Report

February 8, 2024
Auteurs: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI

Résumé

Ce rapport technique présente la méthodologie d'entraînement et les résultats d'évaluation des modèles d'encodage de texte multilingues E5 open-source, publiés mi-2023. Trois modèles d'encodage de tailles différentes (petit / base / grand) sont proposés, offrant un équilibre entre l'efficacité d'inférence et la qualité des encodages. La procédure d'entraînement suit la recette du modèle E5 en anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison de jeux de données étiquetés. De plus, nous introduisons un nouveau modèle d'encodage ajusté par instructions, dont les performances sont comparables à celles des modèles de pointe monolingues (anglais uniquement) de tailles similaires. Les informations concernant la publication des modèles sont disponibles à l'adresse suivante : https://github.com/microsoft/unilm/tree/master/e5.
English
This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .
PDF234December 15, 2024