Llama-Embed-Nemotron-8B: Un Modello Universale per l'Embedding del Testo per Compiti Multilingue e Cross-Lingue
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
November 10, 2025
Autori: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge
cs.AI
Abstract
Presentiamo llama-embed-nemotron-8b, un modello di embedding del testo con pesi open-source che raggiunge prestazioni allo stato dell'arte sulla leaderboard del Multilingual Massive Text Embedding Benchmark (MMTEB) aggiornata al 21 ottobre 2025. Sebbene i modelli recenti mostrino prestazioni elevate, i loro dati o metodologie di addestramento spesso non sono completamente divulgati. Il nostro obiettivo è colmare questa lacuna sviluppando un modello completamente open-source, rilasciandone pubblicamente i pesi e dettagliati studi di ablazione, e pianificando di condividere i dataset di addestramento curati. Il nostro modello dimostra prestazioni superiori in tutte le principali attività di embedding — incluse retrieval, classificazione e similarità semantica testuale (STS) — ed eccelle in scenari multilingue complessi, come lingue a risorse limitate e configurazioni cross-linguali. Queste prestazioni all'avanguardia sono guidate da una miscela di dati innovativa di 16,1 milioni di coppie query-documento, suddivisa tra 7,7 milioni di campioni da dataset pubblici e 8,4 milioni di esempi generati sinteticamente da vari LLM open-source. Uno dei nostri contributi chiave è uno studio di ablazione dettagliato che analizza le scelte progettuali fondamentali, includendo un confronto tra le implementazioni di loss contrastiva, una valutazione delle strategie di generazione sintetica dei dati (SDG) e l'impatto del merging di modelli. Il modello llama-embed-nemotron-8b è instruction-aware, supportando istruzioni definite dall'utente per migliorare le prestazioni per casi d'uso specifici. Questa combinazione di prestazioni di primo livello, ampia applicabilità e flessibilità guidata dall'utente lo rende una soluzione universale per l'embedding del testo.
English
We introduce llama-embed-nemotron-8b, an open-weights text embedding model
that achieves state-of-the-art performance on the Multilingual Massive Text
Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent
models show strong performance, their training data or methodologies are often
not fully disclosed. We aim to address this by developing a fully open-source
model, publicly releasing its weights and detailed ablation studies, and
planning to share the curated training datasets. Our model demonstrates
superior performance across all major embedding tasks -- including retrieval,
classification and semantic textual similarity (STS) -- and excels in
challenging multilingual scenarios, such as low-resource languages and
cross-lingual setups. This state-of-the-art performance is driven by a novel
data mix of 16.1 million query-document pairs, split between 7.7 million
samples from public datasets and 8.4 million synthetically generated examples
from various open-weight LLMs. One of our key contributions is a detailed
ablation study analyzing core design choices, including a comparison of
contrastive loss implementations, an evaluation of synthetic data generation
(SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b
is an instruction-aware model, supporting user-defined instructions to enhance
performance for specific use-cases. This combination of top-tier performance,
broad applicability, and user-driven flexibility enables it to serve as a
universal text embedding solution.