Llama-Embed-Nemotron-8B:多言語・言語横断タスクのための汎用テキスト埋め込みモデル
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
November 10, 2025
著者: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge
cs.AI
要旨
私たちはllama-embed-nemotron-8bを紹介します。これはオープンウェイトのテキスト埋め込みモデルであり、2025年10月21日現在、Multilingual Massive Text Embedding Benchmark (MMTEB) リーダーボードにおいて最先端の性能を達成しています。近年のモデルは強力な性能を示すものの、その学習データや手法が完全に開示されない場合が多くあります。私たちは、完全なオープンソースモデルの開発、その重みと詳細な ablation study の公開、そして精選された学習データセットの共有を計画することで、この問題に対処することを目指しています。本モデルは、検索、分類、意味的テキスト類似性(STS)を含む全ての主要な埋め込みタスクにおいて優れた性能を示し、低リソース言語やクロスリンガル設定といった困難な多言語シナリオで特に優れています。この最先端の性能は、770万サンプルの公開データセットと、様々なオープンウェイトLLMから生成された840万の合成的な例に分割された、合計1610万のクエリ-文書ペアからなる新しいデータミックスによって実現されています。私たちの主な貢献の一つは、対照損失の実装比較、合成データ生成(SDG)戦略の評価、モデルマージの影響分析を含む、核心的な設計選択を詳細に分析した ablation study です。llama-embed-nemotron-8b は命令認識モデルであり、特定のユースケースに対して性能を向上させるためのユーザー定義の命令をサポートします。この最高水準の性能、幅広い適用性、そしてユーザー主導の柔軟性の組み合わせにより、本モデルはユニバーサルなテキスト埋め込みソリューションとして機能することが可能です。
English
We introduce llama-embed-nemotron-8b, an open-weights text embedding model
that achieves state-of-the-art performance on the Multilingual Massive Text
Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent
models show strong performance, their training data or methodologies are often
not fully disclosed. We aim to address this by developing a fully open-source
model, publicly releasing its weights and detailed ablation studies, and
planning to share the curated training datasets. Our model demonstrates
superior performance across all major embedding tasks -- including retrieval,
classification and semantic textual similarity (STS) -- and excels in
challenging multilingual scenarios, such as low-resource languages and
cross-lingual setups. This state-of-the-art performance is driven by a novel
data mix of 16.1 million query-document pairs, split between 7.7 million
samples from public datasets and 8.4 million synthetically generated examples
from various open-weight LLMs. One of our key contributions is a detailed
ablation study analyzing core design choices, including a comparison of
contrastive loss implementations, an evaluation of synthetic data generation
(SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b
is an instruction-aware model, supporting user-defined instructions to enhance
performance for specific use-cases. This combination of top-tier performance,
broad applicability, and user-driven flexibility enables it to serve as a
universal text embedding solution.