ChatPaper.aiChatPaper

Amélioration des embeddings textuels pour les modèles de langage de petite taille grâce au fine-tuning contrastif

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Auteurs: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Résumé

Bien que les grands modèles de langage démontrent des performances remarquables dans la compréhension du langage naturel, leur nature gourmande en ressources les rend moins accessibles. En revanche, les modèles de langage plus petits, tels que MiniCPM, offrent une scalabilité plus durable, mais sous-performent souvent sans optimisation spécialisée. Dans cet article, nous explorons l'amélioration des modèles de langage plus petits grâce à l'optimisation de leurs embeddings de texte. Nous sélectionnons trois modèles de langage, MiniCPM, Phi-2 et Gemma, pour effectuer un fine-tuning contrastif sur le jeu de données NLI. Nos résultats montrent que cette méthode de fine-tuning améliore la qualité des embeddings de texte pour les trois modèles sur divers benchmarks, avec MiniCPM affichant les améliorations les plus significatives, avec un gain de performance moyen de 56,33 %. Le code de fine-tuning contrastif est disponible publiquement à l'adresse suivante : https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.

Summary

AI-Generated Summary

PDF266November 28, 2024