Una Encuesta de Modelos de Lenguaje Pequeños
A Survey of Small Language Models
October 25, 2024
Autores: Chien Van Nguyen, Xuan Shen, Ryan Aponte, Yu Xia, Samyadeep Basu, Zhengmian Hu, Jian Chen, Mihir Parmar, Sasidhar Kunapuli, Joe Barrow, Junda Wu, Ashish Singh, Yu Wang, Jiuxiang Gu, Franck Dernoncourt, Nesreen K. Ahmed, Nedim Lipka, Ruiyi Zhang, Xiang Chen, Tong Yu, Sungchul Kim, Hanieh Deilamsalehy, Namyong Park, Mike Rimer, Zhehao Zhang, Huanrui Yang, Ryan A. Rossi, Thien Huu Nguyen
cs.AI
Resumen
Los Modelos de Lenguaje Pequeños (SLMs) han adquirido una importancia creciente debido a su eficiencia y rendimiento para llevar a cabo diversas tareas lingüísticas con recursos computacionales mínimos, lo que los hace ideales para distintos entornos, incluyendo dispositivos móviles, dispositivos de borde, entre otros. En este artículo, presentamos un estudio exhaustivo sobre los SLMs, centrándonos en sus arquitecturas, técnicas de entrenamiento y técnicas de compresión de modelos. Proponemos una nueva taxonomía para categorizar los métodos utilizados para optimizar los SLMs, incluyendo técnicas de compresión, poda y cuantificación de modelos. Resumimos los conjuntos de datos de referencia que son útiles para evaluar los SLMs junto con las métricas de evaluación comúnmente utilizadas. Además, destacamos los principales desafíos abiertos que aún deben abordarse. Nuestro estudio tiene como objetivo servir como un recurso valioso para investigadores y profesionales interesados en desarrollar e implementar modelos de lenguaje pequeños pero eficientes.
English
Small Language Models (SLMs) have become increasingly important due to their
efficiency and performance to perform various language tasks with minimal
computational resources, making them ideal for various settings including
on-device, mobile, edge devices, among many others. In this article, we present
a comprehensive survey on SLMs, focusing on their architectures, training
techniques, and model compression techniques. We propose a novel taxonomy for
categorizing the methods used to optimize SLMs, including model compression,
pruning, and quantization techniques. We summarize the benchmark datasets that
are useful for benchmarking SLMs along with the evaluation metrics commonly
used. Additionally, we highlight key open challenges that remain to be
addressed. Our survey aims to serve as a valuable resource for researchers and
practitioners interested in developing and deploying small yet efficient
language models.Summary
AI-Generated Summary