OneBit: Hacia Modelos de Lenguaje de Gran Escala con Bits Extremadamente Bajos
OneBit: Towards Extremely Low-bit Large Language Models
February 17, 2024
Autores: Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che
cs.AI
Resumen
La cuantificación de modelos utiliza valores de bajo ancho de bits para representar las matrices de pesos de los modelos, lo cual es un enfoque prometedor para reducir tanto el almacenamiento como los costos computacionales asociados al despliegue de los tan esperados LLM (Modelos de Lenguaje de Gran Escala). Sin embargo, los métodos de cuantificación existentes sufren una degradación severa del rendimiento cuando el ancho de bits se reduce extremadamente, por lo que se centran en utilizar valores de 4 bits u 8 bits para cuantificar los modelos. Este artículo cuantifica audazmente las matrices de pesos de los LLM a 1 bit, allanando el camino para el despliegue de LLM con un ancho de bits extremadamente bajo. Para este objetivo, introducimos un marco de entrenamiento consciente de la cuantificación de 1 bit (QAT) llamado OneBit, que incluye un novedoso método de representación de parámetros de 1 bit para cuantificar mejor los LLM, así como un método efectivo de inicialización de parámetros basado en la descomposición de matrices para mejorar la velocidad de convergencia del marco QAT. Los resultados experimentales suficientes indican que OneBit logra un buen rendimiento (al menos el 83% del rendimiento no cuantificado) con procesos de entrenamiento robustos cuando se utilizan únicamente matrices de pesos de 1 bit.
English
Model quantification uses low bit-width values to represent the weight
matrices of models, which is a promising approach to reduce both storage and
computational overheads of deploying highly anticipated LLMs. However, existing
quantization methods suffer severe performance degradation when the bit-width
is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to
quantize models. This paper boldly quantizes the weight matrices of LLMs to
1-bit, paving the way for the extremely low bit-width deployment of LLMs. For
this target, we introduce a 1-bit quantization-aware training (QAT) framework
named OneBit, including a novel 1-bit parameter representation method to better
quantize LLMs as well as an effective parameter initialization method based on
matrix decomposition to improve the convergence speed of the QAT framework.
Sufficient experimental results indicate that OneBit achieves good performance
(at least 83% of the non-quantized performance) with robust training processes
when only using 1-bit weight matrices.Summary
AI-Generated Summary