Incrustaciones de Texto E5 Multilingües: Un Informe Técnico
Multilingual E5 Text Embeddings: A Technical Report
February 8, 2024
Autores: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI
Resumen
Este informe técnico presenta la metodología de entrenamiento y los resultados de evaluación de los modelos de incrustación de texto multilingüe E5 de código abierto, lanzados a mediados de 2023. Se proporcionan tres modelos de incrustación de diferentes tamaños (pequeño / base / grande), ofreciendo un equilibrio entre la eficiencia de inferencia y la calidad de las incrustaciones. El procedimiento de entrenamiento sigue la receta del modelo E5 en inglés, que incluye un preentrenamiento contrastivo en 1.000 millones de pares de texto multilingüe, seguido de un ajuste fino en una combinación de conjuntos de datos etiquetados. Además, presentamos un nuevo modelo de incrustación ajustado mediante instrucciones, cuyo rendimiento es comparable al de los modelos más avanzados en inglés de tamaños similares. La información sobre el lanzamiento del modelo se puede encontrar en https://github.com/microsoft/unilm/tree/master/e5.
English
This technical report presents the training methodology and evaluation
results of the open-source multilingual E5 text embedding models, released in
mid-2023. Three embedding models of different sizes (small / base / large) are
provided, offering a balance between the inference efficiency and embedding
quality. The training procedure adheres to the English E5 model recipe,
involving contrastive pre-training on 1 billion multilingual text pairs,
followed by fine-tuning on a combination of labeled datasets. Additionally, we
introduce a new instruction-tuned embedding model, whose performance is on par
with state-of-the-art, English-only models of similar sizes. Information
regarding the model release can be found at
https://github.com/microsoft/unilm/tree/master/e5 .