VPTQ : Quantification de post-entraînement de vecteur à très faible nombre de bits pour les grands modèles de langage
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Auteurs: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Résumé
L'augmentation de la taille des modèles pose un défi significatif pour le déploiement et l'inférence des Grands Modèles de Langage (GML). En raison de la redondance dans les poids des GML, les recherches récentes se sont concentrées sur la quantification des poids uniquement à un nombre de bits extrêmement faible (même jusqu'à 2 bits). Cela réduit les besoins en mémoire, optimise les coûts de stockage et diminue les besoins en bande passante mémoire lors de l'inférence. Cependant, en raison des limitations de représentation numérique, la quantification des poids basée sur des scalaires traditionnels peine à atteindre de si faibles nombres de bits. Des recherches récentes sur la Quantification Vectorielle (VQ) pour les GML ont démontré le potentiel d'une quantification de modèle à très faible nombre de bits en comprimant des vecteurs en indices à l'aide de tables de recherche.
Dans cet article, nous introduisons la Quantification Post-Entraînement Vectorielle (VPTQ) pour la quantification à très faible nombre de bits des GML. Nous utilisons l'Optimisation du Deuxième Ordre pour formuler le problème de VQ des GML et guider la conception de notre algorithme de quantification en résolvant l'optimisation. Nous affinons ensuite les poids en utilisant l'Optimisation du Deuxième Ordre Indépendante des Canaux pour une VQ granulaire. De plus, en décomposant le problème d'optimisation, nous proposons un algorithme d'initialisation de codebook bref et efficace. Nous étendons également le VPTQ pour prendre en charge la quantification résiduelle et des valeurs aberrantes, ce qui améliore la précision du modèle et comprime davantage le modèle. Nos résultats expérimentaux montrent que le VPTQ réduit la perplexité de quantification du modèle de 0,01 à 0,34 sur LLaMA-2, de 0,38 à 0,68 sur Mistral-7B, de 4,41 à 7,34 sur LLaMA-3 par rapport à l'état de l'art à 2 bits, avec une amélioration moyenne de la précision de 0,79 à 1,5% sur LLaMA-2, de 1% sur Mistral-7B, de 11 à 22% sur LLaMA-3 pour les tâches de questions-réponses en moyenne. Nous utilisons seulement 10,4 à 18,6% du temps d'exécution de l'algorithme de quantification, ce qui se traduit par une augmentation de 1,6 à 1,8 fois du débit d'inférence par rapport à l'état de l'art.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary