GPTVQ: La benedizione della dimensionalità per la quantizzazione dei modelli linguistici di grandi dimensioni

Abstract

In questo lavoro dimostriamo che il compromesso tra dimensione e accuratezza nella quantizzazione delle reti neurali può essere significativamente migliorato aumentando la dimensionalità della quantizzazione. Proponiamo il metodo GPTVQ, un nuovo approccio rapido per la quantizzazione vettoriale (VQ) post-addestramento che si adatta bene ai Large Language Models (LLM). Il nostro metodo alterna la quantizzazione di una o più colonne con aggiornamenti ai pesi rimanenti non quantizzati, utilizzando informazioni dall'Hessiano della ricostruzione dell'errore quadratico medio (MSE) per ogni livello. I codebook di quantizzazione vengono inizializzati utilizzando una versione efficiente e data-aware dell'algoritmo EM. I codebook vengono poi aggiornati e ulteriormente compressi mediante quantizzazione intera e compressione basata su SVD. GPTVQ stabilisce un nuovo stato dell'arte nel compromesso tra dimensione e accuratezza su un'ampia gamma di LLM come Llama-v2 e Mistral. Inoltre, il nostro metodo è efficiente: su un singolo H100 richiede tra le 3 e le 11 ore per elaborare un modello Llamav2-70B, a seconda dell'impostazione di quantizzazione. Infine, con tempi di decompressione VQ su una CPU mobile, dimostriamo che la VQ porta a una latenza migliorata rispetto all'utilizzo di un formato intero a 4 bit.

English

In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.

GPTVQ: La benedizione della dimensionalità per la quantizzazione dei modelli linguistici di grandi dimensioni

GPTVQ: The Blessing of Dimensionality for LLM Quantization

Abstract

Support