jina-embeddings-v3: タスクLoRAを用いたマルチリンガル埋め込み
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
September 16, 2024
著者: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI
要旨
jina-embeddings-v3という新しいテキスト埋め込みモデルを紹介します。このモデルは5億7000万のパラメータを持ち、多言語データや長いコンテキスト検索タスクで最先端の性能を達成し、最大8192トークンのコンテキスト長をサポートしています。このモデルには、クエリ-ドキュメント検索、クラスタリング、分類、およびテキストマッチングのための高品質な埋め込みを生成するためのタスク固有のLow-Rank Adaptation(LoRA)アダプタのセットが含まれています。さらに、Matryoshka Representation Learningがトレーニングプロセスに統合されており、埋め込み次元を柔軟に切り捨てることなくパフォーマンスを損なうことなく可能にしています。MTEBベンチマークでの評価では、jina-embeddings-v3が英語タスクで最新のOpenAIやCohereのプロプライエタリな埋め込みを上回り、すべての多言語タスクでmultilingual-e5-large-instructよりも優れたパフォーマンスを達成していることが示されています。
English
We introduce jina-embeddings-v3, a novel text embedding model with 570
million parameters, achieves state-of-the-art performance on multilingual data
and long-context retrieval tasks, supporting context lengths of up to 8192
tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA)
adapters to generate high-quality embeddings for query-document retrieval,
clustering, classification, and text matching. Additionally, Matryoshka
Representation Learning is integrated into the training process, allowing
flexible truncation of embedding dimensions without compromising performance.
Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the
latest proprietary embeddings from OpenAI and Cohere on English tasks, while
achieving superior performance compared to multilingual-e5-large-instruct
across all multilingual tasks.Summary
AI-Generated Summary