jina-embeddings-v5-text: Distillazione Mirata di Embedding per Compiti Specifici

Abstract

I modelli di embedding testuali sono ampiamente utilizzati per compiti di similarità semantica, inclusi il recupero di informazioni, il clustering e la classificazione. I modelli generici sono tipicamente addestrati con processi a singolo o multi stadio che utilizzano funzioni di loss contrastiva. Introduciamo un regime di addestramento innovativo che combina tecniche di distillazione del modello con una loss contrastiva specifica per il compito, per produrre modelli di embedding compatti e ad alte prestazioni. I nostri risultati suggeriscono che questo approccio è più efficace per l'addestramento di modelli piccoli rispetto ai paradigmi di addestramento puramente contrastivi o basati solo sulla distillazione. I punteggi di benchmark dei modelli risultanti, jina-embeddings-v5-text-small e jina-embeddings-v5-text-nano, superano o eguagliano lo stato dell'arte per modelli di dimensioni simili. I modelli jina-embeddings-v5-text supportano inoltre testi lunghi (fino a 32k token) in molte lingue e generano embedding che rimangono robusti nonostante troncamento e quantizzazione binaria. I pesi dei modelli sono pubblicamente disponibili, con l'auspicio di ispirare ulteriori progressi nello sviluppo di modelli di embedding.

English

Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.

jina-embeddings-v5-text: Distillazione Mirata di Embedding per Compiti Specifici

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Abstract

Support