EasyQuant: Un algoritmo eficiente de cuantización sin datos para modelos de lenguaje grandes
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs
March 5, 2024
Autores: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado ser muy superiores a los métodos convencionales en diversas tareas. Sin embargo, sus costosos cálculos y altos requisitos de memoria son prohibitivos para su implementación. La cuantización de modelos es un método efectivo para reducir esta sobrecarga. El problema es que, en la mayoría de los trabajos anteriores, el modelo cuantizado se calibró utilizando pocas muestras de los datos de entrenamiento, lo que podría afectar la generalización de los LLMs cuantizados en casos y tareas desconocidos. Por lo tanto, en este trabajo exploramos una pregunta importante: ¿Podemos diseñar un método de cuantización independiente de los datos para LLMs que garantice su rendimiento de generalización? En este trabajo, proponemos EasyQuant, un algoritmo de cuantización solo de pesos, independiente de los datos y sin necesidad de entrenamiento, para LLMs. Nuestra observación indica que dos factores: los valores atípicos en los pesos y los rangos de cuantización, son esenciales para reducir el error de cuantización. Por lo tanto, en EasyQuant, dejamos los valores atípicos (menos del 1%) sin cambios y optimizamos el rango de cuantización para reducir el error de reconstrucción. Con estos métodos, sorprendentemente encontramos que EasyQuant logra un rendimiento comparable al del modelo original. Dado que EasyQuant no depende de ningún dato de entrenamiento, el rendimiento de generalización de los LLMs cuantizados está garantizado de manera segura. Además, EasyQuant puede implementarse en paralelo, de modo que el modelo cuantizado se puede obtener en unos pocos minutos, incluso para LLMs de más de 100B. Hasta donde sabemos, somos el primer trabajo que logra un rendimiento de cuantización casi sin pérdidas para LLMs en un entorno independiente de los datos, y nuestro algoritmo funciona más de 10 veces más rápido que los métodos dependientes de los datos.
English
Large language models (LLMs) have proven to be very superior to conventional
methods in various tasks. However, their expensive computations and high memory
requirements are prohibitive for deployment. Model quantization is an effective
method for reducing this overhead. The problem is that in most previous works,
the quantized model was calibrated using few samples from the training data,
which might affect the generalization of the quantized LLMs to unknown cases
and tasks. Hence in this work, we explore an important question: Can we design
a data-independent quantization method for LLMs to guarantee its generalization
performance? In this work, we propose EasyQuant, a training-free and
data-independent weight-only quantization algorithm for LLMs. Our observation
indicates that two factors: outliers in the weight and quantization ranges, are
essential for reducing the quantization error. Therefore, in EasyQuant, we
leave the outliers (less than 1%) unchanged and optimize the quantization range
to reduce the reconstruction error. With these methods, we surprisingly find
that EasyQuant achieves comparable performance to the original model. Since
EasyQuant does not depend on any training data, the generalization performance
of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented
in parallel so that the quantized model could be attained in a few minutes even
for LLMs over 100B. To our best knowledge, we are the first work that achieves
almost lossless quantization performance for LLMs under a data-independent
setting and our algorithm runs over 10 times faster than the data-dependent
methods.