A Quantização de Baixo Bit Favorece LLMs Subtreinados: Leis de Escalonamento para LLMs Quantizados com 100T Tokens de Treinamento
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
November 26, 2024
Autores: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI
Resumo
Revelamos que a quantização de baixo bit favorece modelos de linguagem grandes (LLMs) pouco treinados, observando que modelos com tamanhos maiores ou menos tokens de treinamento sofrem menos degradação induzida pela quantização (QiD) ao aplicar a quantização de baixo bit, enquanto modelos menores com extensos tokens de treinamento sofrem QiD significativo. Para obter insights mais profundos sobre essa tendência, estudamos mais de 1500 checkpoints de LLM quantizados de vários tamanhos e em diferentes níveis de treinamento (pouco treinados ou totalmente treinados) em um ambiente controlado, derivando leis de escala para entender a relação entre QiD e fatores como o número de tokens de treinamento, tamanho do modelo e largura do bit.
Com as leis de escala derivadas, propomos uma nova perspectiva de que podemos usar QiD para medir os níveis de treinamento de um LLM e determinar o número de tokens de treinamento necessários para treinar completamente LLMs de vários tamanhos. Além disso, usamos as leis de escala para prever o desempenho de quantização de LLMs de diferentes tamanhos treinados com 100 trilhões de tokens. Nossa projeção mostra que o desempenho de quantização de baixo bit de modelos futuros, que se espera serem treinados com mais de 100 trilhões de tokens, pode NÃO ser desejável. Isso representa um desafio potencial para a quantização de baixo bit no futuro e destaca a necessidade de estar ciente do nível de treinamento de um modelo ao avaliar pesquisas de quantização de baixo bit. Para facilitar pesquisas futuras sobre esse problema, disponibilizamos todos os mais de 1500 checkpoints quantizados usados neste trabalho em https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models
(LLMs) by observing that models with larger sizes or fewer training tokens
experience less quantization-induced degradation (QiD) when applying low-bit
quantization, whereas smaller models with extensive training tokens suffer
significant QiD. To gain deeper insights into this trend, we study over 1500
quantized LLM checkpoints of various sizes and at different training levels
(undertrained or fully trained) in a controlled setting, deriving scaling laws
for understanding the relationship between QiD and factors such as the number
of training tokens, model size and bit width.
With the derived scaling laws, we propose a novel perspective that we can use
QiD to measure an LLM's training levels and determine the number of training
tokens required for fully training LLMs of various sizes. Moreover, we use the
scaling laws to predict the quantization performance of different-sized LLMs
trained with 100 trillion tokens. Our projection shows that the low-bit
quantization performance of future models, which are expected to be trained
with over 100 trillion tokens, may NOT be desirable. This poses a potential
challenge for low-bit quantization in the future and highlights the need for
awareness of a model's training level when evaluating low-bit quantization
research. To facilitate future research on this problem, we release all the
1500+ quantized checkpoints used in this work at
https://huggingface.co/Xu-Ouyang.Summary
AI-Generated Summary