ChatPaper.aiChatPaper

jina-embeddings-v3: Embedding Multilingue con Task LoRA

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

September 16, 2024
Autori: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI

Abstract

Introduciamo jina-embeddings-v3, un nuovo modello di embedding di testo con 570 milioni di parametri, che raggiunge prestazioni all'avanguardia su dati multilingue e compiti di recupero di contesti lunghi, supportando lunghezze di contesto fino a 8192 token. Il modello include un insieme di adattatori Low-Rank Adaptation (LoRA) specifici per il compito per generare embedding di alta qualità per il recupero di query-documenti, clustering, classificazione e corrispondenza di testo. Inoltre, il Matryoshka Representation Learning è integrato nel processo di addestramento, consentendo un troncamento flessibile delle dimensioni degli embedding senza compromettere le prestazioni. L'valutazione sul benchmark MTEB mostra che jina-embeddings-v3 supera i più recenti embedding proprietari di OpenAI e Cohere nei compiti in lingua inglese, ottenendo prestazioni superiori rispetto a multilingual-e5-large-instruct in tutti i compiti multilingue.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.

Summary

AI-Generated Summary

PDF326November 16, 2024