VPTQ: Extrem niedrigbitige Vektor-Post-Training-Quantisierung für große Sprachmodelle
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Autoren: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Zusammenfassung
Die Skalierung der Modellgröße stellt eine erhebliche Herausforderung für die Bereitstellung und Inferenz von Großen Sprachmodellen (LLMs) dar. Aufgrund der Redundanz in den Gewichten von LLMs konzentrierte sich die jüngste Forschung darauf, die Gewichtsquantisierung auf extrem niedrige Bits (sogar bis zu 2 Bits) zu reduzieren. Dies verringert den Speicherbedarf, optimiert die Speicherkosten und reduziert die Speicherbandbreitenanforderungen während der Inferenz. Aufgrund von numerischen Darstellungsbeschränkungen kämpft die traditionelle skalare Gewichtsquantisierung jedoch damit, solch extrem niedrige Bits zu erreichen. Jüngste Forschung zur Vektorquantisierung (VQ) für LLMs hat das Potenzial für eine extrem niedrige Bit-Modellquantisierung durch die Komprimierung von Vektoren in Indizes mithilfe von Suchtabellen aufgezeigt.
In diesem Papier stellen wir die Vektor-Post-Training-Quantisierung (VPTQ) für die extrem niedrige Bit-Quantisierung von LLMs vor. Wir verwenden die Optimierung zweiter Ordnung, um das LLM VQ-Problem zu formulieren und unser Quantisierungsalgorithmusdesign durch Lösung der Optimierung zu führen. Wir verfeinern die Gewichte weiter mithilfe der kanalunabhängigen Optimierung zweiter Ordnung für eine granulare VQ. Darüber hinaus schlagen wir durch die Zerlegung des Optimierungsproblems einen kurzen und effektiven Algorithmus zur Codebuchinitialisierung vor. Wir erweitern VPTQ auch, um die Residual- und Ausreißer-Quantisierung zu unterstützen, was die Modellgenauigkeit verbessert und das Modell weiter komprimiert. Unsere experimentellen Ergebnisse zeigen, dass VPTQ die Modellquantisierungsperplexität um 0,01-0,34 auf LLaMA-2, 0,38-0,68 auf Mistral-7B, 4,41-7,34 auf LLaMA-3 im Vergleich zum SOTA bei 2 Bit reduziert, mit einer durchschnittlichen Genauigkeitsverbesserung von 0,79-1,5% auf LLaMA-2, 1% auf Mistral-7B, 11-22% auf LLaMA-3 bei QA-Aufgaben im Durchschnitt. Wir nutzen nur 10,4-18,6% der Ausführungszeit des Quantisierungsalgorithmus, was zu einer 1,6-1,8-fachen Steigerung der Inferenzdurchsatz im Vergleich zum SOTA führt.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary