jina-embeddings-v3: Incrustaciones Multilingües con Task LoRA
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
September 16, 2024
Autores: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI
Resumen
Presentamos jina-embeddings-v3, un modelo novedoso de incrustación de texto con 570 millones de parámetros, que logra un rendimiento de vanguardia en datos multilingües y tareas de recuperación de contexto largo, admitiendo longitudes de contexto de hasta 8192 tokens. El modelo incluye un conjunto de adaptadores de Baja Rango Adaptativo (LoRA) específicos para la tarea para generar incrustaciones de alta calidad para la recuperación de consultas-documentos, agrupamiento, clasificación y coincidencia de textos. Además, el Aprendizaje de Representación Matryoshka se integra en el proceso de entrenamiento, permitiendo la truncación flexible de dimensiones de incrustación sin comprometer el rendimiento. La evaluación en el banco de pruebas MTEB muestra que jina-embeddings-v3 supera a las últimas incrustaciones propietarias de OpenAI y Cohere en tareas en inglés, al tiempo que logra un rendimiento superior en comparación con multilingual-e5-large-instruct en todas las tareas multilingües.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570
million parameters, achieves state-of-the-art performance on multilingual data
and long-context retrieval tasks, supporting context lengths of up to 8192
tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA)
adapters to generate high-quality embeddings for query-document retrieval,
clustering, classification, and text matching. Additionally, Matryoshka
Representation Learning is integrated into the training process, allowing
flexible truncation of embedding dimensions without compromising performance.
Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the
latest proprietary embeddings from OpenAI and Cohere on English tasks, while
achieving superior performance compared to multilingual-e5-large-instruct
across all multilingual tasks.Summary
AI-Generated Summary