ChatPaper.aiChatPaper

Llama-Embed-Nemotron-8B: Ein universelles Text-Embedding-Modell für mehrsprachige und cross-linguale Aufgaben

Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

November 10, 2025
papers.authors: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge
cs.AI

papers.abstract

Wir stellen llama-embed-nemotron-8b vor, ein Open-Weights-Textembedding-Modell, das ab dem 21. Oktober 2025 state-of-the-art Leistung auf dem Multilingual Massive Text Embedding Benchmark (MMTEB) Leaderboard erzielt. Während aktuelle Modelle eine starke Leistung zeigen, sind deren Trainingsdaten oder Methoden oft nicht vollständig offengelegt. Unser Ziel ist es, dies zu adressieren, indem wir ein vollständig quelloffenes Modell entwickeln, dessen Gewichte sowie detaillierte Ablationsstudien öffentlich zugänglich machen und die kuratierten Trainingsdatensätze bereitzustellen planen. Unser Modell zeigt eine überlegene Leistung in allen wichtigen Embedding-Aufgaben – einschließlich Retrieval, Klassifikation und semantischer Textähnlichkeit (STS) – und überzeugt insbesondere in anspruchsvollen multilingualen Szenarien, wie etwa ressourcenarmen Sprachen und cross-lingualen Setup. Diese state-of-the-art Leistung wird durch eine neuartige Datenmischung von 16,1 Millionen Query-Dokument-Paaren erreicht, aufgeteilt in 7,7 Millionen Beispiele aus öffentlichen Datensätzen und 8,4 Millionen synthetisch generierte Beispiele von verschiedenen Open-Weight-LLMs. Ein wesentlicher Beitrag unserer Arbeit ist eine detaillierte Ablationsstudie, die zentrale Designentscheidungen analysiert, einschließlich eines Vergleichs von Kontrastverlust-Implementierungen, einer Bewertung von Strategien zur synthetischen Datengenerierung (SDG) und der Auswirkungen von Modellzusammenführung. Bei llama-embed-nemotron-8b handelt es sich um ein instruktionssensitives Modell, das benutzerdefinierte Anweisungen zur Leistungssteigerung für spezifische Anwendungsfälle unterstützt. Diese Kombination aus erstklassiger Leistung, breiter Anwendbarkeit und benutzerorientierter Flexibilität befähigt es, als universelle Textembedding-Lösung zu dienen.
English
We introduce llama-embed-nemotron-8b, an open-weights text embedding model that achieves state-of-the-art performance on the Multilingual Massive Text Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent models show strong performance, their training data or methodologies are often not fully disclosed. We aim to address this by developing a fully open-source model, publicly releasing its weights and detailed ablation studies, and planning to share the curated training datasets. Our model demonstrates superior performance across all major embedding tasks -- including retrieval, classification and semantic textual similarity (STS) -- and excels in challenging multilingual scenarios, such as low-resource languages and cross-lingual setups. This state-of-the-art performance is driven by a novel data mix of 16.1 million query-document pairs, split between 7.7 million samples from public datasets and 8.4 million synthetically generated examples from various open-weight LLMs. One of our key contributions is a detailed ablation study analyzing core design choices, including a comparison of contrastive loss implementations, an evaluation of synthetic data generation (SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b is an instruction-aware model, supporting user-defined instructions to enhance performance for specific use-cases. This combination of top-tier performance, broad applicability, and user-driven flexibility enables it to serve as a universal text embedding solution.
PDF132February 7, 2026