Llama-Embed-Nemotron-8B: Een universeel tekst-embeddingmodel voor meertalige en cross-linguale taken
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
November 10, 2025
Auteurs: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge
cs.AI
Samenvatting
Wij introduceren llama-embed-nemotron-8b, een tekst-embeddingmodel met open gewichten dat state-of-the-art prestaties behaalt op de Multilingual Massive Text Embedding Benchmark (MMTEB) leaderboard per 21 oktober 2025. Hoewel recente modellen sterke prestaties vertonen, zijn hun trainingsdata of methodologieën vaak niet volledig openbaar. Wij streven ernaar dit aan te pakken door een volledig open-source model te ontwikkelen, de gewichten en gedetailleerde ablatiestudies openbaar vrij te geven, en van plan te zijn de samengestelde train datasets te delen. Ons model toont superieure prestaties voor alle belangrijke embeddingtaken – waaronder retrieval, classificatie en semantische tekstuele gelijkenis (STS) – en blinkt uit in uitdagende meertalige scenario's, zoals talen met weinig bronnen en cross-linguale opzettingen. Deze state-of-the-art prestaties worden aangedreven door een nieuwe datamix van 16,1 miljoen query-document paren, verdeeld over 7,7 miljoen voorbeelden uit publieke datasets en 8,4 miljoen synthetisch gegenereerde voorbeelden van verschillende open-weight LLM's. Een van onze belangrijkste bijdragen is een gedetailleerde ablatiestudie die kernontwerpkeuzes analyseert, waaronder een vergelijking van contrastief loss-implementaties, een evaluatie van strategieën voor synthetische datageneratie (SDG), en de impact van modelmerging. De llama-embed-nemotron-8b is een instruction-aware model, dat door de gebruiker gedefinieerde instructies ondersteunt om de prestaties voor specifieke use-cases te verbeteren. Deze combinatie van top prestaties, brede toepasbaarheid en gebruikersgestuurde flexibiliteit stelt het in staat te fungeren als een universele tekst-embeddingoplossing.
English
We introduce llama-embed-nemotron-8b, an open-weights text embedding model
that achieves state-of-the-art performance on the Multilingual Massive Text
Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent
models show strong performance, their training data or methodologies are often
not fully disclosed. We aim to address this by developing a fully open-source
model, publicly releasing its weights and detailed ablation studies, and
planning to share the curated training datasets. Our model demonstrates
superior performance across all major embedding tasks -- including retrieval,
classification and semantic textual similarity (STS) -- and excels in
challenging multilingual scenarios, such as low-resource languages and
cross-lingual setups. This state-of-the-art performance is driven by a novel
data mix of 16.1 million query-document pairs, split between 7.7 million
samples from public datasets and 8.4 million synthetically generated examples
from various open-weight LLMs. One of our key contributions is a detailed
ablation study analyzing core design choices, including a comparison of
contrastive loss implementations, an evaluation of synthetic data generation
(SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b
is an instruction-aware model, supporting user-defined instructions to enhance
performance for specific use-cases. This combination of top-tier performance,
broad applicability, and user-driven flexibility enables it to serve as a
universal text embedding solution.