ChatPaper.aiChatPaper

GPTVQ: Der Segen der Dimensionalität für die Quantisierung von LLMs

GPTVQ: The Blessing of Dimensionality for LLM Quantization

February 23, 2024
Autoren: Mart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough
cs.AI

Zusammenfassung

In dieser Arbeit zeigen wir, dass der Kompromiss zwischen Größe und Genauigkeit bei der Quantisierung neuronaler Netzwerke durch die Erhöhung der Quantisierungsdimensionalität erheblich verbessert werden kann. Wir stellen die GPTVQ-Methode vor, ein neues schnelles Verfahren für die Post-Training-Vektorquantisierung (VQ), das gut auf Large Language Models (LLMs) skaliert. Unsere Methode verknüpft die Quantisierung einer oder mehrerer Spalten mit Aktualisierungen der verbleibenden nicht quantisierten Gewichte unter Verwendung von Informationen aus der Hesse-Matrix des pro Schicht berechneten mittleren quadratischen Fehlers (MSE) der Ausgangsrekonstruktion. Die Quantisierungscodebücher werden mit einer effizienten datenbewussten Version des EM-Algorithmus initialisiert. Anschließend werden die Codebücher aktualisiert und durch die Verwendung von Integer-Quantisierung und SVD-basierter Kompression weiter komprimiert. GPTVQ setzt einen neuen Maßstab für den Kompromiss zwischen Größe und Genauigkeit bei einer Vielzahl von LLMs wie Llama-v2 und Mistral. Darüber hinaus ist unsere Methode effizient: Auf einer einzelnen H100 dauert die Verarbeitung eines Llamav2-70B-Modells je nach Quantisierungseinstellung zwischen 3 und 11 Stunden. Schließlich zeigen wir mit On-Device-Zeitmessungen für die VQ-Dekompression auf einer mobilen CPU, dass VQ im Vergleich zur Verwendung eines 4-Bit-Integer-Formats zu einer verbesserten Latenz führt.
English
In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.
PDF223December 15, 2024