ChatPaper.aiChatPaper

Улучшение встраивания текста для небольших языковых моделей с помощью контрастного донастройки.

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Авторы: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Аннотация

Хотя большие языковые модели демонстрируют выдающуюся производительность в понимании естественного языка, их ресурсоемкость делает их менее доступными. В отличие от этого, более маленькие языковые модели, такие как MiniCPM, предлагают более устойчивую масштабируемость, но часто показывают менее высокую производительность без специализированной оптимизации. В данной статье мы исследуем улучшение более маленьких языковых моделей путем совершенствования их текстовых вложений. Мы выбираем три языковых модели, MiniCPM, Phi-2 и Gemma, для проведения контрастного донастройки на наборе данных NLI. Наши результаты показывают, что этот метод донастройки улучшает качество текстовых вложений для всех трех моделей на различных бенчмарках, причем MiniCPM показывает наиболее значительные улучшения среднего прироста производительности в 56.33\%. Код контрастной донастройки доступен публично по адресу https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.

Summary

AI-Generated Summary

PDF266November 28, 2024