GPTVQ: A Bênção da Dimensionalidade para a Quantização de LLMs

Resumo

Neste trabalho, demonstramos que a relação entre tamanho e precisão na quantização de redes neurais pode ser significativamente melhorada ao aumentar a dimensionalidade da quantização. Propomos o método GPTVQ, uma nova técnica rápida para quantização vetorial pós-treinamento (VQ) que escala bem para Modelos de Linguagem de Grande Porte (LLMs). Nosso método intercala a quantização de uma ou mais colunas com atualizações dos pesos restantes não quantizados, utilizando informações da Hessiana do erro quadrático médio (MSE) de reconstrução da saída por camada. Os codebooks de quantização são inicializados usando uma versão eficiente e baseada em dados do algoritmo EM. Os codebooks são então atualizados e posteriormente comprimidos por meio de quantização inteira e compressão baseada em SVD. O GPTVQ estabelece um novo estado da arte na relação entre tamanho e precisão em uma ampla gama de LLMs, como Llama-v2 e Mistral. Além disso, nosso método é eficiente: em um único H100, leva entre 3 e 11 horas para processar um modelo Llamav2-70B, dependendo da configuração de quantização. Por fim, com tempos de descompressão VQ em um CPU móvel, mostramos que a VQ resulta em uma latência melhorada em comparação com o uso de um formato inteiro de 4 bits.

English

In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.

GPTVQ: A Bênção da Dimensionalidade para a Quantização de LLMs

GPTVQ: The Blessing of Dimensionality for LLM Quantization

Resumo

Support