VPTQ: Cuantificación de Post-Entrenamiento de Vectores de Bits Extremadamente Bajos para Modelos de Lenguaje Grandes
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Autores: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Resumen
La escalabilidad del tamaño del modelo desafía significativamente la implementación y la inferencia de Modelos de Lenguaje Grandes (LLMs). Debido a la redundancia en los pesos de los LLMs, la investigación reciente se ha centrado en llevar la cuantificación basada únicamente en pesos a valores extremadamente bajos de bits (incluso hasta 2 bits). Esto reduce los requisitos de memoria, optimiza los costos de almacenamiento y disminuye las necesidades de ancho de banda de memoria durante la inferencia. Sin embargo, debido a las limitaciones de representación numérica, la cuantificación de pesos basada en escalares tradicionales lucha por lograr valores tan bajos de bits. La investigación reciente sobre Cuantificación Vectorial (VQ) para LLMs ha demostrado el potencial de cuantización de modelos a valores extremadamente bajos de bits comprimiendo vectores en índices mediante tablas de búsqueda.
En este documento, presentamos la Cuantificación Vectorial Post-Entrenamiento (VPTQ) para la cuantificación extremadamente baja de bits de LLMs. Utilizamos Optimización de Segundo Orden para formular el problema de VQ de LLM y guiar el diseño de nuestro algoritmo de cuantificación resolviendo la optimización. Además, refinamos los pesos utilizando Optimización de Segundo Orden Independiente de Canal para una VQ granular. Además, al descomponer el problema de optimización, proponemos un algoritmo de inicialización de libro de códigos breve y efectivo. También extendemos VPTQ para admitir cuantificación residual y de valores atípicos, lo que mejora la precisión del modelo y comprime aún más el modelo. Nuestros resultados experimentales muestran que VPTQ reduce la perplejidad de cuantificación del modelo en 0.01-0.34 en LLaMA-2, 0.38-0.68 en Mistral-7B, 4.41-7.34 en LLaMA-3 sobre SOTA a 2 bits, con una mejora promedio de precisión del 0.79-1.5% en LLaMA-2, 1% en Mistral-7B, 11-22% en LLaMA-3 en tareas de QA en promedio. Solo utilizamos el 10.4-18.6% del tiempo de ejecución del algoritmo de cuantificación, lo que resulta en un aumento de 1.6-1.8 veces en el rendimiento de inferencia en comparación con SOTA.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary