ChatPaper.aiChatPaper

Niedrig-Bit-Quantisierung bevorzugt untertrainierte LLMs: Skalierungsgesetze für quantisierte LLMs mit 100T Trainings-Token.

Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

November 26, 2024
Autoren: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI

Zusammenfassung

Wir enthüllen, dass die Quantisierung mit niedrigen Bits untertrainierten großen Sprachmodellen (LLMs) zugutekommt, indem wir beobachten, dass Modelle mit größeren Größen oder weniger Trainings-Token weniger Quantisierungs-induzierte Degradierung (QiD) erfahren, wenn eine Quantisierung mit niedrigen Bits angewendet wird, während kleinere Modelle mit umfangreichen Trainings-Token eine signifikante QiD erleiden. Um tiefere Einblicke in diesen Trend zu gewinnen, untersuchen wir über 1500 quantisierte LLM-Checkpoint-Modelle verschiedener Größen und auf unterschiedlichen Trainingsstufen (untertrainiert oder vollständig trainiert) in einer kontrollierten Umgebung und leiten Skalengesetze ab, um das Verhältnis zwischen QiD und Faktoren wie der Anzahl der Trainings-Token, der Modellgröße und der Bit-Breite zu verstehen. Mit den abgeleiteten Skalengesetzen schlagen wir eine neue Perspektive vor, dass wir QiD verwenden können, um das Trainingsniveau eines LLM zu messen und die Anzahl der Trainings-Token zu bestimmen, die für das vollständige Training von LLMs verschiedener Größen erforderlich sind. Darüber hinaus verwenden wir die Skalengesetze, um die Quantisierungsleistung von LLMs unterschiedlicher Größen vorherzusagen, die mit 100 Billionen Token trainiert wurden. Unsere Prognose zeigt, dass die Quantisierungsleistung mit niedrigen Bits zukünftiger Modelle, die voraussichtlich mit über 100 Billionen Token trainiert werden, möglicherweise NICHT wünschenswert ist. Dies stellt eine potenzielle Herausforderung für die Quantisierung mit niedrigen Bits in der Zukunft dar und unterstreicht die Notwendigkeit, das Trainingsniveau eines Modells bei der Bewertung von Forschung zur Quantisierung mit niedrigen Bits zu berücksichtigen. Um zukünftige Forschung zu diesem Problem zu erleichtern, veröffentlichen wir alle über 1500 quantisierten Checkpoints, die in dieser Arbeit verwendet wurden, unter https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models (LLMs) by observing that models with larger sizes or fewer training tokens experience less quantization-induced degradation (QiD) when applying low-bit quantization, whereas smaller models with extensive training tokens suffer significant QiD. To gain deeper insights into this trend, we study over 1500 quantized LLM checkpoints of various sizes and at different training levels (undertrained or fully trained) in a controlled setting, deriving scaling laws for understanding the relationship between QiD and factors such as the number of training tokens, model size and bit width. With the derived scaling laws, we propose a novel perspective that we can use QiD to measure an LLM's training levels and determine the number of training tokens required for fully training LLMs of various sizes. Moreover, we use the scaling laws to predict the quantization performance of different-sized LLMs trained with 100 trillion tokens. Our projection shows that the low-bit quantization performance of future models, which are expected to be trained with over 100 trillion tokens, may NOT be desirable. This poses a potential challenge for low-bit quantization in the future and highlights the need for awareness of a model's training level when evaluating low-bit quantization research. To facilitate future research on this problem, we release all the 1500+ quantized checkpoints used in this work at https://huggingface.co/Xu-Ouyang.

Summary

AI-Generated Summary

PDF135November 27, 2024