Llama-Embed-Nemotron-8B: Un Modello Universale per l'Embedding del Testo per Compiti Multilingue e Cross-Lingue

Abstract

Presentiamo llama-embed-nemotron-8b, un modello di embedding del testo con pesi open-source che raggiunge prestazioni allo stato dell'arte sulla leaderboard del Multilingual Massive Text Embedding Benchmark (MMTEB) aggiornata al 21 ottobre 2025. Sebbene i modelli recenti mostrino prestazioni elevate, i loro dati o metodologie di addestramento spesso non sono completamente divulgati. Il nostro obiettivo è colmare questa lacuna sviluppando un modello completamente open-source, rilasciandone pubblicamente i pesi e dettagliati studi di ablazione, e pianificando di condividere i dataset di addestramento curati. Il nostro modello dimostra prestazioni superiori in tutte le principali attività di embedding — incluse retrieval, classificazione e similarità semantica testuale (STS) — ed eccelle in scenari multilingue complessi, come lingue a risorse limitate e configurazioni cross-linguali. Queste prestazioni all'avanguardia sono guidate da una miscela di dati innovativa di 16,1 milioni di coppie query-documento, suddivisa tra 7,7 milioni di campioni da dataset pubblici e 8,4 milioni di esempi generati sinteticamente da vari LLM open-source. Uno dei nostri contributi chiave è uno studio di ablazione dettagliato che analizza le scelte progettuali fondamentali, includendo un confronto tra le implementazioni di loss contrastiva, una valutazione delle strategie di generazione sintetica dei dati (SDG) e l'impatto del merging di modelli. Il modello llama-embed-nemotron-8b è instruction-aware, supportando istruzioni definite dall'utente per migliorare le prestazioni per casi d'uso specifici. Questa combinazione di prestazioni di primo livello, ampia applicabilità e flessibilità guidata dall'utente lo rende una soluzione universale per l'embedding del testo.

English

We introduce llama-embed-nemotron-8b, an open-weights text embedding model that achieves state-of-the-art performance on the Multilingual Massive Text Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent models show strong performance, their training data or methodologies are often not fully disclosed. We aim to address this by developing a fully open-source model, publicly releasing its weights and detailed ablation studies, and planning to share the curated training datasets. Our model demonstrates superior performance across all major embedding tasks -- including retrieval, classification and semantic textual similarity (STS) -- and excels in challenging multilingual scenarios, such as low-resource languages and cross-lingual setups. This state-of-the-art performance is driven by a novel data mix of 16.1 million query-document pairs, split between 7.7 million samples from public datasets and 8.4 million synthetically generated examples from various open-weight LLMs. One of our key contributions is a detailed ablation study analyzing core design choices, including a comparison of contrastive loss implementations, an evaluation of synthetic data generation (SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b is an instruction-aware model, supporting user-defined instructions to enhance performance for specific use-cases. This combination of top-tier performance, broad applicability, and user-driven flexibility enables it to serve as a universal text embedding solution.

Llama-Embed-Nemotron-8B: Un Modello Universale per l'Embedding del Testo per Compiti Multilingue e Cross-Lingue

Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

Abstract

Support