ChatPaper.aiChatPaper

Miglioramento degli embedding di testo per modelli linguistici più piccoli mediante fine-tuning contrastivo

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Autori: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Abstract

Sebbene i Large Language Models dimostrino prestazioni notevoli nella comprensione del linguaggio naturale, la loro natura ad alta intensità di risorse li rende meno accessibili. Al contrario, modelli linguistici più piccoli come MiniCPM offrono una scalabilità più sostenibile, ma spesso si comportano in modo inferiore senza un'ottimizzazione specializzata. In questo articolo, esploriamo il potenziamento dei modelli linguistici più piccoli attraverso il miglioramento dei loro text embedding. Selezioniamo tre modelli linguistici, MiniCPM, Phi-2 e Gemma, per condurre un fine-tuning contrastivo sul dataset NLI. I nostri risultati dimostrano che questo metodo di fine-tuning migliora la qualità dei text embedding per tutti e tre i modelli su vari benchmark, con MiniCPM che mostra i miglioramenti più significativi, con un guadagno medio di prestazioni del 56,33%. Il codice per il fine-tuning contrastivo è disponibile pubblicamente all'indirizzo https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.
PDF256November 28, 2024