ChatPaper.aiChatPaper

jina-embeddings-v3 : Intégrations multilingues avec Task LoRA

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

September 16, 2024
Auteurs: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI

Résumé

Nous présentons jina-embeddings-v3, un nouveau modèle d'incorporation de texte avec 570 millions de paramètres, qui atteint des performances de pointe sur des données multilingues et des tâches de recherche de long contexte, prenant en charge des longueurs de contexte allant jusqu'à 8192 jetons. Le modèle comprend un ensemble d'adaptateurs Low-Rank Adaptation (LoRA) spécifiques à la tâche pour générer des incorporations de haute qualité pour la recherche de requêtes de documents, le regroupement, la classification et la mise en correspondance de texte. De plus, l'Apprentissage de Représentation Matryoshka est intégré dans le processus de formation, permettant une troncature flexible des dimensions d'incorporation sans compromettre les performances. L'évaluation sur le banc d'essai MTEB montre que jina-embeddings-v3 surpasse les dernières incorporations propriétaires d'OpenAI et de Cohere sur les tâches en anglais, tout en obtenant des performances supérieures par rapport à multilingual-e5-large-instruct sur l'ensemble des tâches multilingues.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.

Summary

AI-Generated Summary

PDF326November 16, 2024