La quantification à faible nombre de bits favorise les LLM sous-entraînés : Lois d'échelle pour les LLM quantifiés avec 100 billions de jetons d'entraînement.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
November 26, 2024
Auteurs: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI
Résumé
Nous révélons que la quantification à faible nombre de bits favorise les grands modèles de langage insuffisamment entraînés (LLM) en observant que les modèles de plus grande taille ou avec moins de jetons d'entraînement subissent moins de dégradation induite par la quantification (QiD) lors de l'application d'une quantification à faible nombre de bits, tandis que les modèles plus petits avec un grand nombre de jetons d'entraînement souffrent d'une dégradation significative de la QiD. Pour obtenir des informations plus approfondies sur cette tendance, nous étudions plus de 1500 points de contrôle de LLM quantifiés de différentes tailles et à différents niveaux d'entraînement (insuffisamment entraînés ou entièrement entraînés) dans un environnement contrôlé, en dérivant des lois d'échelle pour comprendre la relation entre la QiD et des facteurs tels que le nombre de jetons d'entraînement, la taille du modèle et la largeur en bits.
Avec les lois d'échelle dérivées, nous proposons une nouvelle perspective selon laquelle nous pouvons utiliser la QiD pour mesurer les niveaux d'entraînement d'un LLM et déterminer le nombre de jetons d'entraînement nécessaires pour entraîner pleinement des LLM de différentes tailles. De plus, nous utilisons les lois d'échelle pour prédire les performances de quantification de différents LLM de tailles différentes entraînés avec 100 billions de jetons. Notre projection montre que les performances de quantification à faible nombre de bits des futurs modèles, qui devraient être entraînés avec plus de 100 billions de jetons, pourraient NE PAS être souhaitables. Cela pose un défi potentiel pour la quantification à faible nombre de bits à l'avenir et souligne la nécessité de prendre en compte le niveau d'entraînement d'un modèle lors de l'évaluation de la recherche sur la quantification à faible nombre de bits. Pour faciliter les futures recherches sur ce problème, nous mettons à disposition tous les points de contrôle quantifiés utilisés dans ce travail, soit plus de 1500, sur https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models
(LLMs) by observing that models with larger sizes or fewer training tokens
experience less quantization-induced degradation (QiD) when applying low-bit
quantization, whereas smaller models with extensive training tokens suffer
significant QiD. To gain deeper insights into this trend, we study over 1500
quantized LLM checkpoints of various sizes and at different training levels
(undertrained or fully trained) in a controlled setting, deriving scaling laws
for understanding the relationship between QiD and factors such as the number
of training tokens, model size and bit width.
With the derived scaling laws, we propose a novel perspective that we can use
QiD to measure an LLM's training levels and determine the number of training
tokens required for fully training LLMs of various sizes. Moreover, we use the
scaling laws to predict the quantization performance of different-sized LLMs
trained with 100 trillion tokens. Our projection shows that the low-bit
quantization performance of future models, which are expected to be trained
with over 100 trillion tokens, may NOT be desirable. This poses a potential
challenge for low-bit quantization in the future and highlights the need for
awareness of a model's training level when evaluating low-bit quantization
research. To facilitate future research on this problem, we release all the
1500+ quantized checkpoints used in this work at
https://huggingface.co/Xu-Ouyang.Summary
AI-Generated Summary