ChatPaper.aiChatPaper

La cuantificación de bajo bit favorece a los LLMs subentrenados: Leyes de escala para LLMs cuantificados con 100T tokens de entrenamiento.

Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

November 26, 2024
Autores: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI

Resumen

Revelamos que la cuantificación de bajo número de bits favorece a los modelos de lenguaje grandes insuficientemente entrenados (LLMs) al observar que los modelos con tamaños más grandes o menos tokens de entrenamiento experimentan menos degradación inducida por la cuantificación (QiD) al aplicar la cuantificación de bajo número de bits, mientras que los modelos más pequeños con extensos tokens de entrenamiento sufren una degradación significativa de QiD. Para obtener una comprensión más profunda de esta tendencia, estudiamos más de 1500 puntos de control de LLM cuantificados de varios tamaños y en diferentes niveles de entrenamiento (insuficientemente entrenados o completamente entrenados) en un entorno controlado, derivando leyes de escala para comprender la relación entre QiD y factores como el número de tokens de entrenamiento, tamaño del modelo y ancho de bits. Con las leyes de escala derivadas, proponemos una nueva perspectiva en la que podemos utilizar QiD para medir los niveles de entrenamiento de un LLM y determinar el número de tokens de entrenamiento requeridos para entrenar completamente LLMs de varios tamaños. Además, utilizamos las leyes de escala para predecir el rendimiento de cuantificación de diferentes LLMs de tamaños variados entrenados con 100 billones de tokens. Nuestra proyección muestra que el rendimiento de cuantificación de bajo número de bits de los modelos futuros, que se espera que sean entrenados con más de 100 billones de tokens, puede NO ser deseable. Esto plantea un desafío potencial para la cuantificación de bajo número de bits en el futuro y destaca la necesidad de ser conscientes del nivel de entrenamiento de un modelo al evaluar la investigación de cuantificación de bajo número de bits. Para facilitar la investigación futura sobre este problema, liberamos todos los más de 1500 puntos de control cuantificados utilizados en este trabajo en https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models (LLMs) by observing that models with larger sizes or fewer training tokens experience less quantization-induced degradation (QiD) when applying low-bit quantization, whereas smaller models with extensive training tokens suffer significant QiD. To gain deeper insights into this trend, we study over 1500 quantized LLM checkpoints of various sizes and at different training levels (undertrained or fully trained) in a controlled setting, deriving scaling laws for understanding the relationship between QiD and factors such as the number of training tokens, model size and bit width. With the derived scaling laws, we propose a novel perspective that we can use QiD to measure an LLM's training levels and determine the number of training tokens required for fully training LLMs of various sizes. Moreover, we use the scaling laws to predict the quantization performance of different-sized LLMs trained with 100 trillion tokens. Our projection shows that the low-bit quantization performance of future models, which are expected to be trained with over 100 trillion tokens, may NOT be desirable. This poses a potential challenge for low-bit quantization in the future and highlights the need for awareness of a model's training level when evaluating low-bit quantization research. To facilitate future research on this problem, we release all the 1500+ quantized checkpoints used in this work at https://huggingface.co/Xu-Ouyang.

Summary

AI-Generated Summary

PDF135November 27, 2024