jina-embeddings-v5-text: Taakgerichte Embedding Distillatie

Samenvatting

Tekst-embeddingmodellen worden veelvuldig gebruikt voor semantische gelijkenistaken, waaronder informatie-retrieval, clustering en classificatie. Algemene modellen worden doorgaans getraind met eenfasige of meerfasige processen die gebruikmaken van contrastieve verliesfuncties. Wij introduceren een nieuwe trainingsmethode die modeldistillatietechnieken combineert met taakspecifieke contrastieve verliesfuncties om compacte, hoogpresterende embeddingmodellen te produceren. Onze bevindingen suggereren dat deze aanpak effectiever is voor het trainen van kleine modellen dan uitsluitend contrastieve of op distillatie gebaseerde trainingsparadigma's. De benchmark-scores van de resulterende modellen, jina-embeddings-v5-text-small en jina-embeddings-v5-text-nano, overtreffen of evenaren de state-of-the-art voor modellen van vergelijkbare grootte. De jina-embeddings-v5-text-modellen ondersteunen bovendien lange teksten (tot 32k tokens) in vele talen en genereren embeddings die robuust blijven bij afkapping en binaire kwantisering. De modelgewichten zijn publiekelijk beschikbaar, wat naar verwachting verdere vooruitgang in de ontwikkeling van embeddingmodellen zal inspireren.

English

Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.

jina-embeddings-v5-text: Taakgerichte Embedding Distillatie

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Samenvatting

Support