jina-embeddings-v5-text: Целевое дистилляционное обучение эмбеддингов
jina-embeddings-v5-text: Task-Targeted Embedding Distillation
February 17, 2026
Авторы: Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao
cs.AI
Аннотация
Модели текстовых эмбеддингов широко применяются для задач семантического сходства, включая информационный поиск, кластеризацию и классификацию. Универсальные модели обычно обучаются по одно- или многоэтапным процедурам с использованием контрастивных функций потерь. Мы представляем новую методику обучения, сочетающую техники дистилляции моделей с задачно-специфичными контрастивными потерями для создания компактных высокопроизводительных моделей эмбеддингов. Наши результаты свидетельствуют, что данный подход более эффективен для обучения небольших моделей по сравнению с чисто контрастивными или основанными исключительно на дистилляции парадигмами. Бенчмарк-показатели полученных моделей, jina-embeddings-v5-text-small и jina-embeddings-v5-text-nano, превосходят или соответствуют state-of-the-art для моделей сопоставимого размера. Модели jina-embeddings-v5-text дополнительно поддерживают длинные тексты (до 32 тыс. токенов) на многих языках и генерируют эмбеддинги, сохраняющие устойчивость при усечении и бинарной квантизации. Веса моделей находятся в открытом доступе, что, как мы надеемся, стимулирует дальнейший прогресс в разработке моделей эмбеддингов.
English
Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.