VPTQ: Quantizzazione post-addestramento estremamente a basso bit per modelli linguistici di grandi dimensioni
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Autori: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Abstract
L'ingrandimento della dimensione del modello rappresenta una sfida significativa per la distribuzione e l'elaborazione di Grandi Modelli Linguistici (LLM). A causa della ridondanza nei pesi dei LLM, recenti ricerche si sono concentrate sulla quantizzazione basata esclusivamente sui pesi fino a un numero estremamente basso di bit (anche fino a 2 bit). Ciò riduce i requisiti di memoria, ottimizza i costi di archiviazione e riduce le esigenze di larghezza di banda della memoria durante l'elaborazione. Tuttavia, a causa delle limitazioni della rappresentazione numerica, la quantizzazione tradizionale basata su scalari lotta per raggiungere un numero così basso di bit. Recenti ricerche sulla Quantizzazione Vettoriale (VQ) per i LLM hanno dimostrato il potenziale di quantizzazione del modello a basso numero di bit comprimendo vettori in indici utilizzando tabelle di ricerca.
In questo articolo, presentiamo la Quantizzazione Post-Training Vettoriale (VPTQ) per la quantizzazione a basso numero di bit estremamente dei LLM. Utilizziamo Ottimizzazione di Secondo Ordine per formulare il problema VQ dei LLM e guidare la progettazione del nostro algoritmo di quantizzazione risolvendo l'ottimizzazione. Perfezioniamo ulteriormente i pesi utilizzando l'Ottimizzazione di Secondo Ordine Indipendente dal Canale per una VQ granulare. Inoltre, decomponendo il problema di ottimizzazione, proponiamo un algoritmo di inizializzazione del codebook breve ed efficace. Estendiamo inoltre il VPTQ per supportare la quantizzazione residua e degli outlier, che migliorano la precisione del modello e comprimono ulteriormente il modello. I nostri risultati sperimentali mostrano che il VPTQ riduce la perplessità della quantizzazione del modello di 0,01-0,34 su LLaMA-2, 0,38-0,68 su Mistral-7B, 4,41-7,34 su LLaMA-3 rispetto a SOTA a 2 bit, con un miglioramento medio dell'accuratezza del 0,79-1,5% su LLaMA-2, 1% su Mistral-7B, 11-22% su LLaMA-3 nei compiti di QA in media. Utilizziamo solo il 10,4-18,6% del tempo di esecuzione dell'algoritmo di quantizzazione, ottenendo un aumento del throughput di elaborazione di 1,6-1,8 volte rispetto a SOTA.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary