VPTQ: Экстремальная квантизация векторов с низким битовым разрешением после обучения для крупных моделей языка
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
September 25, 2024
Авторы: Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
cs.AI
Аннотация
Масштабирование размера модели значительно затрудняет развертывание и вывод крупных языковых моделей (LLM). Из-за избыточности весов LLM последние исследования сосредоточены на снижении квантования только весов до крайне низких бит (даже до 2 бит). Это снижает требования к памяти, оптимизирует затраты на хранение и уменьшает потребности в памяти при выводе. Однако из-за ограничений числового представления традиционное скалярное квантование весов борется с достижением таких крайне низких бит. Недавние исследования по векторному квантованию (VQ) для LLM показали потенциал для квантования модели с крайне низким битовым числом путем сжатия векторов в индексы с использованием таблиц поиска.
В данной статье мы представляем Векторное Пост-тренировочное Квантование (VPTQ) для крайне низкобитового квантования LLM. Мы используем оптимизацию второго порядка для формулирования проблемы VQ LLM и направляем проектирование нашего алгоритма квантования путем решения оптимизации. Мы дополнительно уточняем веса, используя Оптимизацию второго порядка, независимую от канала, для более детального VQ. Кроме того, разделяя проблему оптимизации, мы предлагаем краткий и эффективный алгоритм инициализации кодовой книги. Мы также расширяем VPTQ для поддержки квантования остатков и выбросов, что улучшает точность модели и дополнительно сжимает модель. Наши экспериментальные результаты показывают, что VPTQ снижает перплексию квантования модели на 0.01-0.34 на LLaMA-2, 0.38-0.68 на Mistral-7B, 4.41-7.34 на LLaMA-3 по сравнению с SOTA на 2 битах, с средним улучшением точности на 0.79-1.5% на LLaMA-2, 1% на Mistral-7B, 11-22% на LLaMA-3 для задач QA в среднем. Мы используем только 10.4-18.6% времени выполнения алгоритма квантования, что приводит к увеличению производительности вывода в 1.6-1.8 раза по сравнению с SOTA.
English
Scaling model size significantly challenges the deployment and inference of
Large Language Models (LLMs). Due to the redundancy in LLM weights, recent
research has focused on pushing weight-only quantization to extremely low-bit
(even down to 2 bits). It reduces memory requirements, optimizes storage costs,
and decreases memory bandwidth needs during inference. However, due to
numerical representation limitations, traditional scalar-based weight
quantization struggles to achieve such extreme low-bit. Recent research on
Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely
low-bit model quantization by compressing vectors into indices using lookup
tables.
In this paper, we introduce Vector Post-Training Quantization (VPTQ) for
extremely low-bit quantization of LLMs. We use Second-Order Optimization to
formulate the LLM VQ problem and guide our quantization algorithm design by
solving the optimization. We further refine the weights using
Channel-Independent Second-Order Optimization for a granular VQ. In addition,
by decomposing the optimization problem, we propose a brief and effective
codebook initialization algorithm. We also extend VPTQ to support residual and
outlier quantization, which enhances model accuracy and further compresses the
model. Our experimental results show that VPTQ reduces model quantization
perplexity by 0.01-0.34 on LLaMA-2, 0.38-0.68 on Mistral-7B,
4.41-7.34 on LLaMA-3 over SOTA at 2-bit, with an average accuracy
improvement of 0.79-1.5% on LLaMA-2, 1% on Mistral-7B, 11-22% on
LLaMA-3 on QA tasks on average. We only utilize 10.4-18.6% of the
quantization algorithm execution time, resulting in a 1.6-1.8times
increase in inference throughput compared to SOTA.Summary
AI-Generated Summary