VPTQ: Quantização Pós-Treinamento de Vetor de Baixíssimos Bits Extremos para Modelos de Linguagem Grandes
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Autores: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Resumo
O dimensionamento do tamanho do modelo desafia significativamente a implantação e inferência de Modelos de Linguagem Grandes (LLMs). Devido à redundância nos pesos do LLM, pesquisas recentes têm se concentrado em empurrar a quantização baseada apenas em pesos para um número extremamente baixo de bits (mesmo chegando a 2 bits). Isso reduz os requisitos de memória, otimiza os custos de armazenamento e diminui as necessidades de largura de banda de memória durante a inferência. No entanto, devido às limitações de representação numérica, a quantização de pesos baseada em escalares tradicionais tem dificuldade em alcançar um número tão baixo de bits. Pesquisas recentes sobre Quantização de Vetores (VQ) para LLMs têm demonstrado o potencial de quantização de modelos com um número extremamente baixo de bits comprimindo vetores em índices usando tabelas de pesquisa.
Neste artigo, introduzimos a Quantização de Vetores Pós-Treinamento (VPTQ) para quantização de LLMs com um número extremamente baixo de bits. Utilizamos Otimização de Segunda Ordem para formular o problema de VQ do LLM e guiar o design do nosso algoritmo de quantização resolvendo a otimização. Refinamos ainda mais os pesos usando Otimização de Segunda Ordem Independente de Canal para uma VQ granular. Além disso, ao decompor o problema de otimização, propomos um algoritmo de inicialização de livro de códigos breve e eficaz. Também estendemos o VPTQ para suportar quantização residual e de outliers, o que melhora a precisão do modelo e comprime ainda mais o modelo. Nossos resultados experimentais mostram que o VPTQ reduz a perplexidade de quantização do modelo em 0.01-0.34 no LLaMA-2, 0.38-0.68 no Mistral-7B, 4.41-7.34 no LLaMA-3 em relação ao SOTA com 2 bits, com uma melhoria média de precisão de 0.79-1.5% no LLaMA-2, 1% no Mistral-7B, 11-22% no LLaMA-3 em tarefas de QA em média. Utilizamos apenas 10.4-18.6% do tempo de execução do algoritmo de quantização, resultando em um aumento de 1.6-1.8 vezes no throughput de inferência em comparação com o SOTA.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary