EasyQuant: Um Algoritmo Eficiente de Quantização sem Dados para Modelos de Linguagem de Grande Escala
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs
March 5, 2024
Autores: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs, na sigla em inglês) demonstraram ser muito superiores aos métodos convencionais em diversas tarefas. No entanto, seus cálculos dispendiosos e altos requisitos de memória são proibitivos para implantação. A quantização de modelos é um método eficaz para reduzir essa sobrecarga. O problema é que, na maioria dos trabalhos anteriores, o modelo quantizado foi calibrado usando poucas amostras dos dados de treinamento, o que pode afetar a generalização dos LLMs quantizados para casos e tarefas desconhecidos. Portanto, neste trabalho, exploramos uma questão importante: Podemos projetar um método de quantização independente de dados para LLMs que garanta seu desempenho de generalização? Neste trabalho, propomos o EasyQuant, um algoritmo de quantização apenas de pesos, independente de dados e sem necessidade de treinamento, para LLMs. Nossa observação indica que dois fatores: outliers nos pesos e faixas de quantização, são essenciais para reduzir o erro de quantização. Assim, no EasyQuant, deixamos os outliers (menos de 1%) inalterados e otimizamos a faixa de quantização para reduzir o erro de reconstrução. Com esses métodos, surpreendentemente descobrimos que o EasyQuant alcança um desempenho comparável ao do modelo original. Como o EasyQuant não depende de nenhum dado de treinamento, o desempenho de generalização dos LLMs quantizados é garantido com segurança. Além disso, o EasyQuant pode ser implementado em paralelo, de modo que o modelo quantizado pode ser obtido em poucos minutos, mesmo para LLMs com mais de 100 bilhões de parâmetros. Até onde sabemos, somos o primeiro trabalho a alcançar um desempenho de quantização quase sem perdas para LLMs em um cenário independente de dados, e nosso algoritmo é mais de 10 vezes mais rápido do que os métodos dependentes de dados.
English
Large language models (LLMs) have proven to be very superior to conventional
methods in various tasks. However, their expensive computations and high memory
requirements are prohibitive for deployment. Model quantization is an effective
method for reducing this overhead. The problem is that in most previous works,
the quantized model was calibrated using few samples from the training data,
which might affect the generalization of the quantized LLMs to unknown cases
and tasks. Hence in this work, we explore an important question: Can we design
a data-independent quantization method for LLMs to guarantee its generalization
performance? In this work, we propose EasyQuant, a training-free and
data-independent weight-only quantization algorithm for LLMs. Our observation
indicates that two factors: outliers in the weight and quantization ranges, are
essential for reducing the quantization error. Therefore, in EasyQuant, we
leave the outliers (less than 1%) unchanged and optimize the quantization range
to reduce the reconstruction error. With these methods, we surprisingly find
that EasyQuant achieves comparable performance to the original model. Since
EasyQuant does not depend on any training data, the generalization performance
of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented
in parallel so that the quantized model could be attained in a few minutes even
for LLMs over 100B. To our best knowledge, we are the first work that achieves
almost lossless quantization performance for LLMs under a data-independent
setting and our algorithm runs over 10 times faster than the data-dependent
methods.