GPTVQ: La bendición de la dimensionalidad para la cuantización de modelos de lenguaje grandes
GPTVQ: The Blessing of Dimensionality for LLM Quantization
February 23, 2024
Autores: Mart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough
cs.AI
Resumen
En este trabajo demostramos que el equilibrio entre tamaño y precisión en la cuantización de redes neuronales puede mejorarse significativamente al aumentar la dimensionalidad de la cuantización. Proponemos el método GPTVQ, un nuevo método rápido para la cuantización vectorial (VQ) post-entrenamiento que escala eficientemente a Modelos de Lenguaje de Gran Escala (LLMs). Nuestro método intercala la cuantización de una o más columnas con actualizaciones de los pesos no cuantizados restantes, utilizando información del Hessiano del error cuadrático medio (MSE) de reconstrucción de la salida por capa. Los codebooks de cuantización se inicializan mediante una versión eficiente y basada en datos del algoritmo EM. Luego, los codebooks se actualizan y se comprimen aún más mediante cuantización entera y compresión basada en SVD. GPTVQ establece un nuevo estado del arte en el equilibrio entre tamaño y precisión en una amplia gama de LLMs, como Llama-v2 y Mistral. Además, nuestro método es eficiente: en una sola H100, toma entre 3 y 11 horas procesar un modelo Llamav2-70B, dependiendo de la configuración de cuantización. Por último, con mediciones de tiempo en dispositivo para la descompresión VQ en una CPU móvil, demostramos que la VQ conduce a una latencia mejorada en comparación con el uso de un formato entero de 4 bits.
English
In this work we show that the size versus accuracy trade-off of neural
network quantization can be significantly improved by increasing the
quantization dimensionality. We propose the GPTVQ method, a new fast method for
post-training vector quantization (VQ) that scales well to Large Language
Models (LLMs). Our method interleaves quantization of one or more columns with
updates to the remaining unquantized weights, using information from the
Hessian of the per-layer output reconstruction MSE. Quantization codebooks are
initialized using an efficient data-aware version of the EM algorithm. The
codebooks are then updated, and further compressed by using integer
quantization and SVD-based compression. GPTVQ establishes a new state-of-the
art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2
and Mistral. Furthermore, our method is efficient: on a single H100 it takes
between 3 and 11 hours to process a Llamav2-70B model, depending on
quantization setting. Lastly, with on-device timings for VQ decompression on a
mobile CPU we show that VQ leads to improved latency compared to using a 4-bit
integer format.