GPTVQ: De Zegen van Dimensionaliteit voor LLM-Kwantisering
GPTVQ: The Blessing of Dimensionality for LLM Quantization
February 23, 2024
Auteurs: Mart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough
cs.AI
Samenvatting
In dit werk tonen we aan dat de afweging tussen grootte en nauwkeurigheid bij de kwantisatie van neurale netwerken aanzienlijk kan worden verbeterd door de kwantisatiedimensionaliteit te vergroten. We stellen de GPTVQ-methode voor, een nieuwe snelle methode voor post-training vector kwantisatie (VQ) die goed schaalt naar Large Language Models (LLMs). Onze methode wisselt de kwantisatie van een of meer kolommen af met updates aan de resterende niet-gekwantiseerde gewichten, waarbij informatie wordt gebruikt uit de Hessiaan van de MSE voor reconstructie van de uitvoer per laag. Kwantisatiecodeboeken worden geïnitialiseerd met behulp van een efficiënte data-aware versie van het EM-algoritme. De codeboeken worden vervolgens bijgewerkt en verder gecomprimeerd door middel van integerkwantisatie en SVD-gebaseerde compressie. GPTVQ vestigt een nieuwe staat-van-de-kunst in de afwegingen tussen grootte en nauwkeurigheid voor een breed scala aan LLMs, zoals Llama-v2 en Mistral. Bovendien is onze methode efficiënt: op een enkele H100 duurt het tussen de 3 en 11 uur om een Llamav2-70B model te verwerken, afhankelijk van de kwantisatie-instelling. Ten slotte tonen we met on-device timing voor VQ-decompressie op een mobiele CPU aan dat VQ leidt tot verbeterde latentie in vergelijking met het gebruik van een 4-bit integerformaat.
English
In this work we show that the size versus accuracy trade-off of neural
network quantization can be significantly improved by increasing the
quantization dimensionality. We propose the GPTVQ method, a new fast method for
post-training vector quantization (VQ) that scales well to Large Language
Models (LLMs). Our method interleaves quantization of one or more columns with
updates to the remaining unquantized weights, using information from the
Hessian of the per-layer output reconstruction MSE. Quantization codebooks are
initialized using an efficient data-aware version of the EM algorithm. The
codebooks are then updated, and further compressed by using integer
quantization and SVD-based compression. GPTVQ establishes a new state-of-the
art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2
and Mistral. Furthermore, our method is efficient: on a single H100 it takes
between 3 and 11 hours to process a Llamav2-70B model, depending on
quantization setting. Lastly, with on-device timings for VQ decompression on a
mobile CPU we show that VQ leads to improved latency compared to using a 4-bit
integer format.