BitNet a4.8: 1비트 대형 언어 모델을 위한 4비트 활성화
BitNet a4.8: 4-bit Activations for 1-bit LLMs
November 7, 2024
저자: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI
초록
최근 BitNet b1.58과 같은 1비트 대형 언어 모델(LLM)에 대한 연구는 LLM의 추론 비용을 줄이면서도 성능을 유지할 수 있는 유망한 방향을 제시하고 있다. 본 연구에서는 1비트 LLM에 4비트 활성화를 가능하게 하는 BitNet a4.8을 소개한다. BitNet a4.8은 하이브리드 양자화 및 희소화 전략을 사용하여 이상치 채널로 인해 발생하는 양자화 오류를 완화한다. 구체적으로, 어텐션 및 피드포워드 네트워크 계층에 대한 입력에는 4비트 활성화를 사용하고, 중간 상태는 희소화한 후 8비트 양자화를 적용한다. 광범위한 실험을 통해 BitNet a4.8은 동일한 학습 비용으로 BitNet b1.58과 비슷한 성능을 달성하면서도 4비트(INT4/FP4) 커널을 활성화하여 더 빠른 추론 속도를 보여준다. 또한, BitNet a4.8은 매개변수의 55%만 활성화하고 3비트 KV 캐시를 지원함으로써 대규모 LLM 배포 및 추론의 효율성을 더욱 향상시킨다.
English
Recent research on the 1-bit Large Language Models (LLMs), such as BitNet
b1.58, presents a promising direction for reducing the inference cost of LLMs
while maintaining their performance. In this work, we introduce BitNet a4.8,
enabling 4-bit activations for 1-bit LLMs. BitNet a4.8 employs a hybrid
quantization and sparsification strategy to mitigate the quantization errors
introduced by the outlier channels. Specifically, we utilize 4-bit activations
for inputs to the attention and feed-forward network layers, while sparsifying
intermediate states followed with 8-bit quantization. Extensive experiments
demonstrate that BitNet a4.8 achieves performance comparable to BitNet b1.58
with equivalent training costs, while being faster in inference with enabling
4-bit (INT4/FP4) kernels. Additionally, BitNet a4.8 activates only 55% of
parameters and supports 3-bit KV cache, further enhancing the efficiency of
large-scale LLM deployment and inference.