Llama-Embed-Nemotron-8B: 다국어 및 교차 언어 작업을 위한 범용 텍스트 임베딩 모델
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
November 10, 2025
저자: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge
cs.AI
초록
2025년 10월 21일 기준 다국어 대규모 텍스트 임베딩 벤치마크(MMTEB) 리더보드에서 최첨단 성능을 달성한 오픈 웨이트 텍스트 임베딩 모델인 llama-embed-nemotron-8b를 소개합니다. 최근 모델들은 강력한 성능을 보여주지만, 그 학습 데이터나 방법론이 종종 완전히 공개되지 않습니다. 우리는 모델 가중치와 상세한 제어 실험 결과를 공개하고, 정제된 학습 데이터셋의 공유를 계획함으로써 완전한 오픈소스 모델을 개발하여 이 문제를 해결하고자 합니다. 우리의 모델은 검색, 분류, 의미적 텍스트 유사성(STS)을 포함한 모든 주요 임베딩 작업에서 우수한 성능을 보이며, 저자원 언어 및 교차 언어 설정과 같은 까다로운 다국어 시나리오에서도 뛰어납니다. 이러한 최첨단 성능은 공개 데이터셋의 770만 개 샘플과 다양한 오픈 웨이트 LLM으로부터 합성 생성된 840만 개의 예시로 구성된 총 1,610만 개의 쿼리-문서 쌍이라는 새로운 데이터 조합에 기인합니다. 우리의 핵심 기여 중 하나는 대조 손실 구현 방식 비교, 합성 데이터 생성(SDG) 전략 평가, 모델 병합의 영향 분석 등 핵심 설계 선택을 분석한 상세한 제어 실험입니다. llama-embed-nemotron-8b는 지시어 인식 모델로, 특정 사용 사례에 대한 성능을 향상시키기 위해 사용자 정의 지시어를 지원합니다. 이처럼 최고 수준의 성능, 광범위한 적용성, 사용자 주도적 유연성을 결합하여 이 모델은 범용 텍스트 임베딩 솔루션으로 역할할 수 있습니다.
English
We introduce llama-embed-nemotron-8b, an open-weights text embedding model
that achieves state-of-the-art performance on the Multilingual Massive Text
Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent
models show strong performance, their training data or methodologies are often
not fully disclosed. We aim to address this by developing a fully open-source
model, publicly releasing its weights and detailed ablation studies, and
planning to share the curated training datasets. Our model demonstrates
superior performance across all major embedding tasks -- including retrieval,
classification and semantic textual similarity (STS) -- and excels in
challenging multilingual scenarios, such as low-resource languages and
cross-lingual setups. This state-of-the-art performance is driven by a novel
data mix of 16.1 million query-document pairs, split between 7.7 million
samples from public datasets and 8.4 million synthetically generated examples
from various open-weight LLMs. One of our key contributions is a detailed
ablation study analyzing core design choices, including a comparison of
contrastive loss implementations, an evaluation of synthetic data generation
(SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b
is an instruction-aware model, supporting user-defined instructions to enhance
performance for specific use-cases. This combination of top-tier performance,
broad applicability, and user-driven flexibility enables it to serve as a
universal text embedding solution.