Llama-Embed-Nemotron-8B: Un Modelo Universal de Incrustación de Texto para Tareas Multilingües y Translingüísticas
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
November 10, 2025
Autores: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge
cs.AI
Resumen
Presentamos llama-embed-nemotron-8b, un modelo de embeddings de texto de pesos abiertos que logra un rendimiento de vanguardia en el ranking de referencia Multilingual Massive Text Embedding Benchmark (MMTEB) al 21 de octubre de 2025. Si bien los modelos recientes muestran un rendimiento sólido, sus datos o metodologías de entrenamiento a menudo no se divulgan por completo. Nuestro objetivo es abordar esto desarrollando un modelo completamente de código abierto, liberando públicamente sus pesos y estudios de ablación detallados, y planeando compartir los conjuntos de datos de entrenamiento curados. Nuestro modelo demuestra un rendimiento superior en todas las tareas principales de embeddings —incluyendo recuperación, clasificación y similitud semántica textual (STS)— y sobresale en escenarios multilingües desafiantes, como lenguajes de bajos recursos y configuraciones cross-lingual. Este rendimiento de vanguardia es impulsado por una novedosa mezcla de datos de 16.1 millones de pares consulta-documento, divididos entre 7.7 millones de muestras de conjuntos de datos públicos y 8.4 millones de ejemplos generados sintéticamente a partir de varios LLM de pesos abiertos. Una de nuestras contribuciones clave es un estudio de ablación detallado que analiza decisiones de diseño fundamentales, incluyendo una comparación de implementaciones de pérdida contrastiva, una evaluación de estrategias de generación de datos sintéticos (SDG) y el impacto de la fusión de modelos. El modelo llama-embed-nemotron-8b es un modelo consciente de instrucciones, que admite instrucciones definidas por el usuario para mejorar el rendimiento en casos de uso específicos. Esta combinación de rendimiento de primer nivel, amplia aplicabilidad y flexibilidad impulsada por el usuario le permite servir como una solución universal de embeddings de texto.
English
We introduce llama-embed-nemotron-8b, an open-weights text embedding model
that achieves state-of-the-art performance on the Multilingual Massive Text
Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent
models show strong performance, their training data or methodologies are often
not fully disclosed. We aim to address this by developing a fully open-source
model, publicly releasing its weights and detailed ablation studies, and
planning to share the curated training datasets. Our model demonstrates
superior performance across all major embedding tasks -- including retrieval,
classification and semantic textual similarity (STS) -- and excels in
challenging multilingual scenarios, such as low-resource languages and
cross-lingual setups. This state-of-the-art performance is driven by a novel
data mix of 16.1 million query-document pairs, split between 7.7 million
samples from public datasets and 8.4 million synthetically generated examples
from various open-weight LLMs. One of our key contributions is a detailed
ablation study analyzing core design choices, including a comparison of
contrastive loss implementations, an evaluation of synthetic data generation
(SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b
is an instruction-aware model, supporting user-defined instructions to enhance
performance for specific use-cases. This combination of top-tier performance,
broad applicability, and user-driven flexibility enables it to serve as a
universal text embedding solution.