GPTVQ: La bendición de la dimensionalidad para la cuantización de modelos de lenguaje grandes

Resumen

En este trabajo demostramos que el equilibrio entre tamaño y precisión en la cuantización de redes neuronales puede mejorarse significativamente al aumentar la dimensionalidad de la cuantización. Proponemos el método GPTVQ, un nuevo método rápido para la cuantización vectorial (VQ) post-entrenamiento que escala eficientemente a Modelos de Lenguaje de Gran Escala (LLMs). Nuestro método intercala la cuantización de una o más columnas con actualizaciones de los pesos no cuantizados restantes, utilizando información del Hessiano del error cuadrático medio (MSE) de reconstrucción de la salida por capa. Los codebooks de cuantización se inicializan mediante una versión eficiente y basada en datos del algoritmo EM. Luego, los codebooks se actualizan y se comprimen aún más mediante cuantización entera y compresión basada en SVD. GPTVQ establece un nuevo estado del arte en el equilibrio entre tamaño y precisión en una amplia gama de LLMs, como Llama-v2 y Mistral. Además, nuestro método es eficiente: en una sola H100, toma entre 3 y 11 horas procesar un modelo Llamav2-70B, dependiendo de la configuración de cuantización. Por último, con mediciones de tiempo en dispositivo para la descompresión VQ en una CPU móvil, demostramos que la VQ conduce a una latencia mejorada en comparación con el uso de un formato entero de 4 bits.

English

In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.

GPTVQ: La bendición de la dimensionalidad para la cuantización de modelos de lenguaje grandes

GPTVQ: The Blessing of Dimensionality for LLM Quantization

Resumen

Support