VPTQ: Extreem lage-bit vector post-training kwantisering voor grote taalmodellen
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Auteurs: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Samenvatting
Het schalen van de modelgrootte vormt een aanzienlijke uitdaging voor de implementatie en inferentie van Grote Taalmodellen (LLM's). Vanwege de redundantie in LLM-gewichten heeft recent onderzoek zich gericht op het verder verlagen van de gewichtskwantisering naar extreem lage bits (zelfs tot 2 bits). Dit vermindert geheugenvereisten, optimaliseert opslagkosten en verlaagt de geheugenbandbreedte tijdens inferentie. Echter, vanwege numerieke representatielimieten heeft traditionele schaalgebaseerde gewichtskwantisering moeite om dergelijke extreem lage bits te bereiken. Recente onderzoeken naar Vector Quantization (VQ) voor LLM's hebben het potentieel aangetoond voor extreem lage-bits modelkwantisering door vectoren te comprimeren tot indices met behulp van zoektabellen.
In dit artikel introduceren we Vector Post-Training Quantization (VPTQ) voor extreem lage-bits kwantisering van LLM's. We gebruiken Tweede-Orde Optimalisatie om het LLM VQ-probleem te formuleren en onze kwantisatiealgoritme-ontwerp te begeleiden door de optimalisatie op te lossen. We verfijnen de gewichten verder met Kanaalonafhankelijke Tweede-Orde Optimalisatie voor een gedetailleerde VQ. Bovendien stellen we, door het ontleden van het optimalisatieprobleem, een beknopt en effectief codeboek-initialisatiealgoritme voor. We breiden VPTQ ook uit om residuale en uitschieterkwantisering te ondersteunen, wat de modelnauwkeurigheid verbetert en het model verder comprimeert. Onze experimentele resultaten tonen aan dat VPTQ de modelkwantisatie-perplexiteit verlaagt met 0.01-0.34 op LLaMA-2, 0.38-0.68 op Mistral-7B, 4.41-7.34 op LLaMA-3 ten opzichte van SOTA op 2-bit, met een gemiddelde nauwkeurigheidsverbetering van 0.79-1.5% op LLaMA-2, 1% op Mistral-7B, 11-22% op LLaMA-3 voor QA-taken gemiddeld. We gebruiken slechts 10.4-18.6% van de uitvoeringstijd van het kwantisatiealgoritme, wat resulteert in een 1.6-1.8 keer hogere inferentiedoorvoer in vergelijking met SOTA.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary