ChatPaper.aiChatPaper

Jina-Einbettungen-v3: Mehrsprachige Einbettungen mit Task LoRA

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

September 16, 2024
Autoren: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI

Zusammenfassung

Wir stellen jina-embeddings-v3 vor, ein neuartiges Texteinbettungsmodell mit 570 Millionen Parametern, das eine Spitzenleistung bei mehrsprachigen Daten und Langkontext-Abrufaufgaben erzielt und Kontextlängen von bis zu 8192 Tokens unterstützt. Das Modell umfasst eine Reihe von aufgabenspezifischen Low-Rank Adaptation (LoRA)-Adaptern zur Erzeugung hochwertiger Einbettungen für die Abfrage-Dokument-Abruf, Clustering, Klassifizierung und Textabstimmung. Darüber hinaus ist das Matrjoschka-Repräsentationslernen in den Schulungsprozess integriert, was eine flexible Trunkierung der Einbettungsdimensionen ermöglicht, ohne die Leistung zu beeinträchtigen. Die Bewertung am MTEB-Benchmark zeigt, dass jina-embeddings-v3 die neuesten proprietären Einbettungen von OpenAI und Cohere bei englischen Aufgaben übertrifft und im Vergleich zu multilingual-e5-large-instruct eine überlegene Leistung bei allen mehrsprachigen Aufgaben erzielt.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.

Summary

AI-Generated Summary

PDF326November 16, 2024