ChatPaper.aiChatPaper

Mejorando los Incrustamientos de Texto para Modelos de Lenguaje Más Pequeños Utilizando Ajuste Fino Contrastivo

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

August 1, 2024
Autores: Trapoom Ukarapol, Zhicheng Lee, Amy Xin
cs.AI

Resumen

Si bien los Modelos de Lenguaje Grandes muestran un rendimiento notable en la comprensión del lenguaje natural, su naturaleza intensiva en recursos los hace menos accesibles. En contraste, modelos de lenguaje más pequeños como MiniCPM ofrecen una escalabilidad más sostenible, pero a menudo tienen un rendimiento inferior sin una optimización especializada. En este artículo, exploramos la mejora de modelos de lenguaje más pequeños a través del perfeccionamiento de sus incrustaciones de texto. Seleccionamos tres modelos de lenguaje, MiniCPM, Phi-2 y Gemma, para llevar a cabo un ajuste fino contrastivo en el conjunto de datos NLI. Nuestros resultados demuestran que este método de ajuste fino mejora la calidad de las incrustaciones de texto para los tres modelos en varios puntos de referencia, con MiniCPM mostrando las mejoras más significativas con una ganancia de rendimiento promedio del 56.33\%. El código de ajuste fino contrastivo está disponible públicamente en https://github.com/trapoom555/Language-Model-STS-CFT.
English
While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.

Summary

AI-Generated Summary

PDF266November 28, 2024