Квантование с низким битовым разрешением предпочтительно для недообученных LLM: законы масштабирования для квантованных LLM с 100 трлн обучающих токенов.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
November 26, 2024
Авторы: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI
Аннотация
Мы обнаружили, что квантование с низким битовым разрешением благоприятствует недообученным большим языковым моделям (LLM), заметив, что модели большего размера или с меньшим количеством обучающих токенов испытывают меньшее ухудшение, вызванное квантованием, при применении квантования с низким битовым разрешением, в то время как более маленькие модели с обширным количеством обучающих токенов страдают от значительного ухудшения. Для более глубокого понимания этой тенденции мы изучили более 1500 контролируемых квантованных точек LLM различных размеров и на разных уровнях обучения (недообученные или полностью обученные), выведя законы масштабирования для понимания взаимосвязи между ухудшением, вызванным квантованием, и факторами, такими как количество обучающих токенов, размер модели и разрядность бита.
С использованием выведенных законов масштабирования мы предлагаем новую перспективу, что мы можем использовать ухудшение, вызванное квантованием, для измерения уровней обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования различных по размеру LLM, обученных с 100 триллионами токенов. Наш прогноз показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые ожидается будут обучены более чем на 100 триллионах токенов, может НЕ быть желательной. Это представляет потенциальное вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость осознания уровня обучения модели при оценке исследований квантования с низким битовым разрешением. Для облегчения будущих исследований по этой проблеме мы публикуем все более чем 1500 квантованных контрольных точек, использованных в этой работе по адресу https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models
(LLMs) by observing that models with larger sizes or fewer training tokens
experience less quantization-induced degradation (QiD) when applying low-bit
quantization, whereas smaller models with extensive training tokens suffer
significant QiD. To gain deeper insights into this trend, we study over 1500
quantized LLM checkpoints of various sizes and at different training levels
(undertrained or fully trained) in a controlled setting, deriving scaling laws
for understanding the relationship between QiD and factors such as the number
of training tokens, model size and bit width.
With the derived scaling laws, we propose a novel perspective that we can use
QiD to measure an LLM's training levels and determine the number of training
tokens required for fully training LLMs of various sizes. Moreover, we use the
scaling laws to predict the quantization performance of different-sized LLMs
trained with 100 trillion tokens. Our projection shows that the low-bit
quantization performance of future models, which are expected to be trained
with over 100 trillion tokens, may NOT be desirable. This poses a potential
challenge for low-bit quantization in the future and highlights the need for
awareness of a model's training level when evaluating low-bit quantization
research. To facilitate future research on this problem, we release all the
1500+ quantized checkpoints used in this work at
https://huggingface.co/Xu-Ouyang.Summary
AI-Generated Summary