ChatPaper.aiChatPaper

Melhorando os Incorporamentos de Texto para Modelos de Linguagem Menores Usando Ajuste Fino Contrastivo

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Autores: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Resumo

Embora os Modelos de Linguagem de Grande Escala demonstrem um desempenho notável em compreensão de linguagem natural, sua natureza intensiva em recursos os torna menos acessíveis. Em contraste, modelos de linguagem menores como o MiniCPM oferecem uma escalabilidade mais sustentável, mas frequentemente têm um desempenho inferior sem otimizações especializadas. Neste artigo, exploramos o aprimoramento de modelos de linguagem menores por meio da melhoria de seus embeddings de texto. Selecionamos três modelos de linguagem, MiniCPM, Phi-2 e Gemma, para realizar ajustes contrastivos no conjunto de dados NLI. Nossos resultados demonstram que esse método de ajuste melhora a qualidade dos embeddings de texto para os três modelos em várias métricas, com o MiniCPM apresentando as melhorias mais significativas, com um ganho médio de desempenho de 56,33\%. O código de ajuste contrastivo está disponível publicamente em https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.

Summary

AI-Generated Summary

PDF266November 28, 2024