OneBit: Hacia Modelos de Lenguaje de Gran Escala con Bits Extremadamente Bajos

Resumen

La cuantificación de modelos utiliza valores de bajo ancho de bits para representar las matrices de pesos de los modelos, lo cual es un enfoque prometedor para reducir tanto el almacenamiento como los costos computacionales asociados al despliegue de los tan esperados LLM (Modelos de Lenguaje de Gran Escala). Sin embargo, los métodos de cuantificación existentes sufren una degradación severa del rendimiento cuando el ancho de bits se reduce extremadamente, por lo que se centran en utilizar valores de 4 bits u 8 bits para cuantificar los modelos. Este artículo cuantifica audazmente las matrices de pesos de los LLM a 1 bit, allanando el camino para el despliegue de LLM con un ancho de bits extremadamente bajo. Para este objetivo, introducimos un marco de entrenamiento consciente de la cuantificación de 1 bit (QAT) llamado OneBit, que incluye un novedoso método de representación de parámetros de 1 bit para cuantificar mejor los LLM, así como un método efectivo de inicialización de parámetros basado en la descomposición de matrices para mejorar la velocidad de convergencia del marco QAT. Los resultados experimentales suficientes indican que OneBit logra un buen rendimiento (al menos el 83% del rendimiento no cuantificado) con procesos de entrenamiento robustos cuando se utilizan únicamente matrices de pesos de 1 bit.

English

Model quantification uses low bit-width values to represent the weight matrices of models, which is a promising approach to reduce both storage and computational overheads of deploying highly anticipated LLMs. However, existing quantization methods suffer severe performance degradation when the bit-width is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to quantize models. This paper boldly quantizes the weight matrices of LLMs to 1-bit, paving the way for the extremely low bit-width deployment of LLMs. For this target, we introduce a 1-bit quantization-aware training (QAT) framework named OneBit, including a novel 1-bit parameter representation method to better quantize LLMs as well as an effective parameter initialization method based on matrix decomposition to improve the convergence speed of the QAT framework. Sufficient experimental results indicate that OneBit achieves good performance (at least 83% of the non-quantized performance) with robust training processes when only using 1-bit weight matrices.

OneBit: Hacia Modelos de Lenguaje de Gran Escala con Bits Extremadamente Bajos

OneBit: Towards Extremely Low-bit Large Language Models

Resumen

Support