jina-embeddings-v3: Incorporação Multilíngue com Task LoRA
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
September 16, 2024
Autores: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI
Resumo
Apresentamos o jina-embeddings-v3, um modelo de incorporação de texto inovador com 570 milhões de parâmetros, que alcança desempenho de ponta em dados multilíngues e tarefas de recuperação de contexto longo, suportando comprimentos de contexto de até 8192 tokens. O modelo inclui um conjunto de adaptadores de Baixa Classificação Adaptativa (LoRA) específicos para tarefas para gerar incorporações de alta qualidade para recuperação de consulta-documento, agrupamento, classificação e correspondência de texto. Além disso, a Aprendizagem de Representação Matryoshka é integrada ao processo de treinamento, permitindo a truncagem flexível das dimensões de incorporação sem comprometer o desempenho. A avaliação no benchmark MTEB mostra que o jina-embeddings-v3 supera as últimas incorporações proprietárias da OpenAI e da Cohere em tarefas em inglês, enquanto alcança desempenho superior em comparação com o multilingual-e5-large-instruct em todas as tarefas multilíngues.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570
million parameters, achieves state-of-the-art performance on multilingual data
and long-context retrieval tasks, supporting context lengths of up to 8192
tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA)
adapters to generate high-quality embeddings for query-document retrieval,
clustering, classification, and text matching. Additionally, Matryoshka
Representation Learning is integrated into the training process, allowing
flexible truncation of embedding dimensions without compromising performance.
Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the
latest proprietary embeddings from OpenAI and Cohere on English tasks, while
achieving superior performance compared to multilingual-e5-large-instruct
across all multilingual tasks.Summary
AI-Generated Summary