jina-embeddings-v5-text: Destilación de Incrustaciones Dirigidas por Tareas
jina-embeddings-v5-text: Task-Targeted Embedding Distillation
February 17, 2026
Autores: Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao
cs.AI
Resumen
Los modelos de incrustación de texto se utilizan ampliamente para tareas de similitud semántica, incluyendo recuperación de información, agrupamiento y clasificación. Los modelos de propósito general suelen entrenarse con procesos de una o varias etapas utilizando funciones de pérdida contrastiva. Presentamos un novedoso régimen de entrenamiento que combina técnicas de destilación de modelos con pérdida contrastiva específica de tarea para producir modelos de incrustación compactos y de alto rendimiento. Nuestros hallazgos sugieren que este enfoque es más efectivo para entrenar modelos pequeños que los paradigmas de entrenamiento puramente contrastivos o basados únicamente en destilación. Las puntuaciones de referencia de los modelos resultantes, jina-embeddings-v5-text-small y jina-embeddings-v5-text-nano, superan o igualan el estado del arte para modelos de tamaño similar. Los modelos jina-embeddings-v5-text además admiten textos largos (hasta 32k tokens) en muchos idiomas, y generan incrustaciones que mantienen su robustez ante truncamiento y cuantización binaria. Los pesos del modelo están disponibles públicamente, con la esperanza de inspirar nuevos avances en el desarrollo de modelos de incrustación.
English
Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.