ChatPaper.aiChatPaper

jina-embeddings-v5-text : Distillation de plongements lexicaux ciblée par tâche

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

February 17, 2026
papers.authors: Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao
cs.AI

papers.abstract

Les modèles d'incorporation de texte sont largement utilisés pour les tâches de similarité sémantique, notamment la recherche d'information, le clustering et la classification. Les modèles généralistes sont généralement entraînés selon des processus à une ou plusieurs étapes utilisant des fonctions de perte contrastive. Nous introduisons un nouveau régime d'entraînement qui combine les techniques de distillation de modèles avec une perte contrastive spécifique à la tâche pour produire des modèles d'incorporation compacts et performants. Nos résultats suggèrent que cette approche est plus efficace pour l'entraînement de petits modèles que les paradigmes d'entraînement purement contrastifs ou basés uniquement sur la distillation. Les scores de référence pour les modèles résultants, jina-embeddings-v5-text-small et jina-embeddings-v5-text-nano, dépassent ou égalent l'état de l'art pour les modèles de taille similaire. Les modèles jina-embeddings-v5-text prennent également en charge les textes longs (jusqu'à 32 000 tokens) dans de nombreuses langues, et génèrent des incorporations qui restent robustes face à la troncation et à la quantification binaire. Les poids des modèles sont publiquement disponibles, ce qui, nous l'espérons, inspirera de nouvelles avancées dans le développement des modèles d'incorporation.
English
Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.
PDF91February 19, 2026