ChatPaper.aiChatPaper

Verbesserung von Texteinbettungen für kleinere Sprachmodelle durch kontrastives Feintuning

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Autoren: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Zusammenfassung

Obwohl große Sprachmodelle eine bemerkenswerte Leistung in der natürlichen Sprachverarbeitung zeigen, macht ihre ressourcenintensive Natur sie weniger zugänglich. Im Gegensatz dazu bieten kleinere Sprachmodelle wie MiniCPM eine nachhaltigere Skalierbarkeit, unterliegen jedoch oft ohne spezialisierte Optimierung. In diesem Paper untersuchen wir die Verbesserung kleinerer Sprachmodelle durch die Optimierung ihrer Texteinbettungen. Wir wählen drei Sprachmodelle, MiniCPM, Phi-2 und Gemma, um kontrastives Feintuning auf dem NLI-Datensatz durchzuführen. Unsere Ergebnisse zeigen, dass diese Feintuning-Methode die Qualität der Texteinbettungen für alle drei Modelle über verschiedene Benchmarks hinweg verbessert, wobei MiniCPM die signifikantesten Verbesserungen mit einem durchschnittlichen Leistungsanstieg von 56,33\% zeigt. Der Code für das kontrastive Feintuning ist öffentlich verfügbar unter https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.

Summary

AI-Generated Summary

PDF266November 28, 2024