ChatPaper.aiChatPaper

지나-임베딩-v5-텍스트: 작업 대상 임베딩 증류

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

February 17, 2026
저자: Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao
cs.AI

초록

텍스트 임베딩 모델은 정보 검색, 클러스터링, 분류를 포함한 의미론적 유사성 작업에 널리 사용됩니다. 범용 모델은 일반적으로 대조 손실 함수를 사용한 단일 또는 다단계 과정으로 학습됩니다. 본 연구에서는 모델 디스틸레이션 기법과 작업 특화 대조 손실을 결합한 새로운 학습 방식을 소개하여, 컴팩트하면서도 높은 성능의 임베딩 모델을 생성합니다. 우리의 연구 결과에 따르면, 이 접근법은 순수 대조 학습이나 디스틸레이션 기반 학습 패러다임만을 단독으로 사용하는 것보다 소규모 모델 학습에 더 효과적입니다. 결과 모델인 jina-embeddings-v5-text-small과 jina-embeddings-v5-text-nano의 벤치마크 점수는 유사 크기의 모델들에 대한 최첨단 기술을 능가하거나 동등한 성능을 보입니다. jina-embeddings-v5-text 모델들은 또한 많은 언어에서 긴 텍스트(최대 32k 토큰)를 지원하며, 임베딩이 잘림 및 이진 양자화 상황에서도 견고성을 유지하도록 생성됩니다. 모델 가중치는 공개되어 임베딩 모델 개발의 추가 발전을 촉진할 것으로 기대됩니다.
English
Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.
PDF91February 19, 2026