EasyQuant: Эффективный алгоритм квантования без данных для LLMs
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs
March 5, 2024
Авторы: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
cs.AI
Аннотация
Большие языковые модели (LLM) доказали своё превосходство над традиционными методами в различных задачах. Однако их дорогостоящие вычисления и высокие требования к памяти препятствуют их применению. Квантизация модели является эффективным методом снижения издержек. Проблема заключается в том, что в большинстве предыдущих работ калибровка квантованной модели производилась на основе небольшого количества образцов из обучающих данных, что может повлиять на обобщение квантованных LLM на неизвестные случаи и задачи. Поэтому в данной работе мы исследуем важный вопрос: можем ли мы разработать метод квантования для LLM, не зависящий от данных, чтобы гарантировать его обобщающую способность? В этой работе мы предлагаем EasyQuant, алгоритм квантования только весов, не требующий обучения и не зависящий от данных для LLM. Наши наблюдения показывают, что два фактора: выбросы в весах и диапазонах квантования, существенны для снижения ошибки квантования. Поэтому в EasyQuant мы оставляем выбросы (менее 1%) без изменений и оптимизируем диапазон квантования для снижения ошибки реконструкции. С помощью этих методов мы удивительно обнаружили, что EasyQuant достигает сопоставимой производительности с оригинальной моделью. Поскольку EasyQuant не зависит от обучающих данных, обобщающая способность квантованных LLM гарантирована. Более того, EasyQuant может быть реализован параллельно, так что квантованная модель может быть получена всего за несколько минут даже для LLM объемом более 100 миллиардов. По нашему лучшему пониманию, мы первыми достигли практически без потерь производительности квантования для LLM в условиях, не зависящих от данных, и наш алгоритм работает более чем в 10 раз быстрее, чем методы, зависящие от данных.
English
Large language models (LLMs) have proven to be very superior to conventional
methods in various tasks. However, their expensive computations and high memory
requirements are prohibitive for deployment. Model quantization is an effective
method for reducing this overhead. The problem is that in most previous works,
the quantized model was calibrated using few samples from the training data,
which might affect the generalization of the quantized LLMs to unknown cases
and tasks. Hence in this work, we explore an important question: Can we design
a data-independent quantization method for LLMs to guarantee its generalization
performance? In this work, we propose EasyQuant, a training-free and
data-independent weight-only quantization algorithm for LLMs. Our observation
indicates that two factors: outliers in the weight and quantization ranges, are
essential for reducing the quantization error. Therefore, in EasyQuant, we
leave the outliers (less than 1%) unchanged and optimize the quantization range
to reduce the reconstruction error. With these methods, we surprisingly find
that EasyQuant achieves comparable performance to the original model. Since
EasyQuant does not depend on any training data, the generalization performance
of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented
in parallel so that the quantized model could be attained in a few minutes even
for LLMs over 100B. To our best knowledge, we are the first work that achieves
almost lossless quantization performance for LLMs under a data-independent
setting and our algorithm runs over 10 times faster than the data-dependent
methods.