BitNet a4.8: 4-битные активации для 1-битных больших языковых моделей
BitNet a4.8: 4-bit Activations for 1-bit LLMs
November 7, 2024
Авторы: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI
Аннотация
Последние исследования 1-битных больших языковых моделей (LLM), таких как BitNet b1.58, открывают перспективное направление для снижения стоимости вывода LLM при сохранении их производительности. В данной работе мы представляем BitNet a4.8, который позволяет использовать 4-битные активации для 1-битных LLM. BitNet a4.8 применяет гибридную стратегию квантования и разрежения для минимизации ошибок квантования, вносимых каналами-выбросами. В частности, мы используем 4-битные активации для входов слоев внимания и прямой сети, в то время как промежуточные состояния подвергаются разрежению с последующим 8-битным квантованием. Многочисленные эксперименты показывают, что BitNet a4.8 демонстрирует производительность, сопоставимую с BitNet b1.58 при эквивалентных затратах на обучение, но обеспечивает более быстрый вывод благодаря использованию 4-битных (INT4/FP4) ядер. Кроме того, BitNet a4.8 активирует только 55% параметров и поддерживает 3-битный KV-кэш, что дополнительно повышает эффективность развертывания и вывода крупномасштабных LLM.
English
Recent research on the 1-bit Large Language Models (LLMs), such as BitNet
b1.58, presents a promising direction for reducing the inference cost of LLMs
while maintaining their performance. In this work, we introduce BitNet a4.8,
enabling 4-bit activations for 1-bit LLMs. BitNet a4.8 employs a hybrid
quantization and sparsification strategy to mitigate the quantization errors
introduced by the outlier channels. Specifically, we utilize 4-bit activations
for inputs to the attention and feed-forward network layers, while sparsifying
intermediate states followed with 8-bit quantization. Extensive experiments
demonstrate that BitNet a4.8 achieves performance comparable to BitNet b1.58
with equivalent training costs, while being faster in inference with enabling
4-bit (INT4/FP4) kernels. Additionally, BitNet a4.8 activates only 55% of
parameters and supports 3-bit KV cache, further enhancing the efficiency of
large-scale LLM deployment and inference.