ChatPaper.aiChatPaper

Multilingual E5 Tekst Embeddings: Een Technisch Rapport

Multilingual E5 Text Embeddings: A Technical Report

February 8, 2024
Auteurs: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI

Samenvatting

Dit technisch rapport presenteert de trainingsmethodologie en evaluatieresultaten van de open-source multilinguele E5 tekstembeddingmodellen, uitgebracht in midden 2023. Drie embeddingmodellen van verschillende groottes (klein / basis / groot) worden aangeboden, die een balans bieden tussen inferentie-efficiëntie en embeddingkwaliteit. Het trainingsproces volgt het recept van het Engelse E5-model, waarbij contrastieve voorafgaande training plaatsvindt op 1 miljard multilinguele tekstparen, gevolgd door fine-tuning op een combinatie van gelabelde datasets. Daarnaast introduceren we een nieuw instructie-getuned embeddingmodel, waarvan de prestaties gelijk zijn aan state-of-the-art, alleen-Engelse modellen van vergelijkbare groottes. Informatie over de modelrelease is te vinden op https://github.com/microsoft/unilm/tree/master/e5.
English
This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .
PDF224December 15, 2024