Embedding Testuali E5 Multilingue: Un Report Tecnico
Multilingual E5 Text Embeddings: A Technical Report
February 8, 2024
Autori: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI
Abstract
Questo rapporto tecnico presenta la metodologia di addestramento e i risultati di valutazione dei modelli open-source multilingue E5 per l'embedding di testo, rilasciati a metà del 2023. Sono stati forniti tre modelli di embedding di dimensioni diverse (small / base / large), che offrono un equilibrio tra efficienza nell'inferenza e qualità dell'embedding. La procedura di addestramento segue la ricetta del modello E5 in inglese, coinvolgendo un pre-addestramento contrastivo su 1 miliardo di coppie di testi multilingue, seguito da un fine-tuning su una combinazione di dataset etichettati. Inoltre, introduciamo un nuovo modello di embedding ottimizzato per istruzioni, le cui prestazioni sono alla pari con i modelli all'avanguardia di dimensioni simili, esclusivamente in inglese. Le informazioni relative al rilascio del modello sono disponibili all'indirizzo https://github.com/microsoft/unilm/tree/master/e5.
English
This technical report presents the training methodology and evaluation
results of the open-source multilingual E5 text embedding models, released in
mid-2023. Three embedding models of different sizes (small / base / large) are
provided, offering a balance between the inference efficiency and embedding
quality. The training procedure adheres to the English E5 model recipe,
involving contrastive pre-training on 1 billion multilingual text pairs,
followed by fine-tuning on a combination of labeled datasets. Additionally, we
introduce a new instruction-tuned embedding model, whose performance is on par
with state-of-the-art, English-only models of similar sizes. Information
regarding the model release can be found at
https://github.com/microsoft/unilm/tree/master/e5 .