Lage-bits kwantisering geeft de voorkeur aan ondergetrainde LLM's: Schaalwetten voor gekwantiseerde LLM's met 100T trainings-tokens.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
November 26, 2024
Auteurs: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI
Samenvatting
We onthullen dat kwantisatie met weinig bits de voorkeur geeft aan ondergetrainde grote taalmodellen (LLM's) door te observeren dat modellen met grotere formaten of minder trainings-tokens minder degradatie ondervinden door kwantisatie met weinig bits, terwijl kleinere modellen met uitgebreide trainings-tokens aanzienlijke degradatie ondervinden. Om dieper inzicht te krijgen in deze trend, bestuderen we meer dan 1500 gekwantiseerde LLM-checkpoints van verschillende groottes en op verschillende trainingsniveaus (ondergetraind of volledig getraind) in een gecontroleerde omgeving, waarbij schaalwetten worden afgeleid om de relatie tussen degradatie door kwantisatie en factoren zoals het aantal trainings-tokens, modelgrootte en bit-breedte te begrijpen.
Met de afgeleide schaalwetten stellen we een nieuw perspectief voor waarbij we degradatie door kwantisatie kunnen gebruiken om de trainingsniveaus van een LLM te meten en het aantal trainings-tokens te bepalen dat nodig is om LLM's van verschillende groottes volledig te trainen. Bovendien gebruiken we de schaalwetten om de kwantisatieprestaties van LLM's van verschillende groottes te voorspellen die zijn getraind met 100 biljoen tokens. Onze projectie toont aan dat de kwantisatieprestaties met weinig bits van toekomstige modellen, die naar verwachting worden getraind met meer dan 100 biljoen tokens, mogelijk NIET wenselijk zijn. Dit vormt een potentieel uitdaging voor kwantisatie met weinig bits in de toekomst en benadrukt de noodzaak om rekening te houden met het trainingsniveau van een model bij het evalueren van onderzoek naar kwantisatie met weinig bits. Om toekomstig onderzoek naar dit probleem te vergemakkelijken, stellen we alle 1500+ gekwantiseerde checkpoints die in dit werk zijn gebruikt beschikbaar op https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models
(LLMs) by observing that models with larger sizes or fewer training tokens
experience less quantization-induced degradation (QiD) when applying low-bit
quantization, whereas smaller models with extensive training tokens suffer
significant QiD. To gain deeper insights into this trend, we study over 1500
quantized LLM checkpoints of various sizes and at different training levels
(undertrained or fully trained) in a controlled setting, deriving scaling laws
for understanding the relationship between QiD and factors such as the number
of training tokens, model size and bit width.
With the derived scaling laws, we propose a novel perspective that we can use
QiD to measure an LLM's training levels and determine the number of training
tokens required for fully training LLMs of various sizes. Moreover, we use the
scaling laws to predict the quantization performance of different-sized LLMs
trained with 100 trillion tokens. Our projection shows that the low-bit
quantization performance of future models, which are expected to be trained
with over 100 trillion tokens, may NOT be desirable. This poses a potential
challenge for low-bit quantization in the future and highlights the need for
awareness of a model's training level when evaluating low-bit quantization
research. To facilitate future research on this problem, we release all the
1500+ quantized checkpoints used in this work at
https://huggingface.co/Xu-Ouyang.Summary
AI-Generated Summary