ChatPaper.aiChatPaper

VPTQ: Quantizzazione post-addestramento estremamente a basso bit per modelli linguistici di grandi dimensioni

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

September 25, 2024
Autori: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI

Abstract

L'ingrandimento della dimensione del modello rappresenta una sfida significativa per la distribuzione e l'elaborazione di Grandi Modelli Linguistici (LLM). A causa della ridondanza nei pesi dei LLM, recenti ricerche si sono concentrate sulla quantizzazione basata esclusivamente sui pesi fino a un numero estremamente basso di bit (anche fino a 2 bit). Ciò riduce i requisiti di memoria, ottimizza i costi di archiviazione e riduce le esigenze di larghezza di banda della memoria durante l'elaborazione. Tuttavia, a causa delle limitazioni della rappresentazione numerica, la quantizzazione tradizionale basata su scalari lotta per raggiungere un numero così basso di bit. Recenti ricerche sulla Quantizzazione Vettoriale (VQ) per i LLM hanno dimostrato il potenziale di quantizzazione del modello a basso numero di bit comprimendo vettori in indici utilizzando tabelle di ricerca. In questo articolo, presentiamo la Quantizzazione Post-Training Vettoriale (VPTQ) per la quantizzazione a basso numero di bit estremamente dei LLM. Utilizziamo Ottimizzazione di Secondo Ordine per formulare il problema VQ dei LLM e guidare la progettazione del nostro algoritmo di quantizzazione risolvendo l'ottimizzazione. Perfezioniamo ulteriormente i pesi utilizzando l'Ottimizzazione di Secondo Ordine Indipendente dal Canale per una VQ granulare. Inoltre, decomponendo il problema di ottimizzazione, proponiamo un algoritmo di inizializzazione del codebook breve ed efficace. Estendiamo inoltre il VPTQ per supportare la quantizzazione residua e degli outlier, che migliorano la precisione del modello e comprimono ulteriormente il modello. I nostri risultati sperimentali mostrano che il VPTQ riduce la perplessità della quantizzazione del modello di 0,01-0,34 su LLaMA-2, 0,38-0,68 su Mistral-7B, 4,41-7,34 su LLaMA-3 rispetto a SOTA a 2 bit, con un miglioramento medio dell'accuratezza del 0,79-1,5% su LLaMA-2, 1% su Mistral-7B, 11-22% su LLaMA-3 nei compiti di QA in media. Utilizziamo solo il 10,4-18,6% del tempo di esecuzione dell'algoritmo di quantizzazione, ottenendo un aumento del throughput di elaborazione di 1,6-1,8 volte rispetto a SOTA.
English
Scaling model size significantly challenges the deployment and inference of Large Language Models (LLMs). Due to the redundancy in LLM weights, recent research has focused on pushing weight-only quantization to extremely low-bit (even down to 2 bits). It reduces memory requirements, optimizes storage costs, and decreases memory bandwidth needs during inference. However, due to numerical representation limitations, traditional scalar-based weight quantization struggles to achieve such extreme low-bit. Recent research on Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely low-bit model quantization by compressing vectors into indices using lookup tables. In this paper, we introduce Vector Post-Training Quantization (VPTQ) for extremely low-bit quantization of LLMs. We use Second-Order Optimization to formulate the LLM VQ problem and guide our quantization algorithm design by solving the optimization. We further refine the weights using Channel-Independent Second-Order Optimization for a granular VQ. In addition, by decomposing the optimization problem, we propose a brief and effective codebook initialization algorithm. We also extend VPTQ to support residual and outlier quantization, which enhances model accuracy and further compresses the model. Our experimental results show that VPTQ reduces model quantization perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B, 4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the quantization algorithm execution time, resulting in a 1.6-1.8times increase in inference throughput compared to SOTA.

Summary

AI-Generated Summary

PDF294November 16, 2024