BitNet a4.8:1ビット大規模言語モデルのための4ビット活性化
BitNet a4.8: 4-bit Activations for 1-bit LLMs
November 7, 2024
著者: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI
要旨
1ビット大規模言語モデル(LLMs)に関する最近の研究、例えばBitNet b1.58は、LLMsの推論コストを削減しつつ性能を維持する有望な方向性を示している。本研究では、1ビットLLMsに対して4ビット活性化を可能にするBitNet a4.8を提案する。BitNet a4.8は、外れ値チャネルによって導入される量子化誤差を軽減するために、ハイブリッド量子化とスパース化戦略を採用している。具体的には、注意層とフィードフォワードネットワーク層への入力に対して4ビット活性化を利用し、中間状態をスパース化した後に8ビット量子化を行う。大規模な実験により、BitNet a4.8は同等の学習コストでBitNet b1.58と同等の性能を達成しつつ、4ビット(INT4/FP4)カーネルを有効化することで推論速度が向上することが示された。さらに、BitNet a4.8はパラメータの55%のみを活性化し、3ビットKVキャッシュをサポートすることで、大規模LLMの展開と推論の効率をさらに向上させている。
English
Recent research on the 1-bit Large Language Models (LLMs), such as BitNet
b1.58, presents a promising direction for reducing the inference cost of LLMs
while maintaining their performance. In this work, we introduce BitNet a4.8,
enabling 4-bit activations for 1-bit LLMs. BitNet a4.8 employs a hybrid
quantization and sparsification strategy to mitigate the quantization errors
introduced by the outlier channels. Specifically, we utilize 4-bit activations
for inputs to the attention and feed-forward network layers, while sparsifying
intermediate states followed with 8-bit quantization. Extensive experiments
demonstrate that BitNet a4.8 achieves performance comparable to BitNet b1.58
with equivalent training costs, while being faster in inference with enabling
4-bit (INT4/FP4) kernels. Additionally, BitNet a4.8 activates only 55% of
parameters and supports 3-bit KV cache, further enhancing the efficiency of
large-scale LLM deployment and inference.