jina-embeddings-v3: Meertalige Embeddings Met Taak LoRA
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
September 16, 2024
Auteurs: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI
Samenvatting
We introduceren jina-embeddings-v3, een nieuw tekst-embeddingmodel met 570 miljoen parameters, dat state-of-the-art prestaties behaalt op meertalige data en taken voor het ophalen van lange contexten, waarbij contextlengtes tot 8192 tokens worden ondersteund. Het model bevat een reeks taakspecifieke Low-Rank Adaptation (LoRA) adapters om hoogwaardige embeddings te genereren voor het ophalen van query-documenten, clustering, classificatie en tekstovereenkomsten. Daarnaast is Matryoshka Representation Learning geïntegreerd in het trainingsproces, waardoor flexibele inkorting van embeddingdimensies mogelijk is zonder prestatieverlies. Evaluatie op de MTEB benchmark toont aan dat jina-embeddings-v3 beter presteert dan de nieuwste eigen embeddings van OpenAI en Cohere op Engelse taken, terwijl het superieure prestaties behaalt in vergelijking met multilingual-e5-large-instruct op alle meertalige taken.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570
million parameters, achieves state-of-the-art performance on multilingual data
and long-context retrieval tasks, supporting context lengths of up to 8192
tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA)
adapters to generate high-quality embeddings for query-document retrieval,
clustering, classification, and text matching. Additionally, Matryoshka
Representation Learning is integrated into the training process, allowing
flexible truncation of embedding dimensions without compromising performance.
Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the
latest proprietary embeddings from OpenAI and Cohere on English tasks, while
achieving superior performance compared to multilingual-e5-large-instruct
across all multilingual tasks.Summary
AI-Generated Summary