ChatPaper.aiChatPaper

Verbeteren van tekstembeddingen voor kleinere taalmodellem met behulp van contrastief fine-tuning

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Auteurs: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Samenvatting

Hoewel grote taalmodellen opmerkelijke prestaties vertonen in natuurlijke taalverwerking, maakt hun intensieve gebruik van bronnen ze minder toegankelijk. Daarentegen bieden kleinere taalmodellen zoals MiniCPM een meer duurzame schaalbaarheid, maar presteren ze vaak minder goed zonder gespecialiseerde optimalisatie. In dit artikel onderzoeken we de verbetering van kleinere taalmodellen door de kwaliteit van hun tekstembeddingen te verhogen. We selecteren drie taalmodellen, MiniCPM, Phi-2 en Gemma, om contrastieve fine-tuning uit te voeren op de NLI-dataset. Onze resultaten tonen aan dat deze fine-tuning-methode de kwaliteit van tekstembeddingen voor alle drie de modellen verbetert op verschillende benchmarks, waarbij MiniCPM de meest significante verbeteringen laat zien met een gemiddelde prestatieverbetering van 56,33%. De code voor contrastieve fine-tuning is publiekelijk beschikbaar op https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.
PDF256February 7, 2026