BitNet: 대규모 언어 모델을 위한 1비트 트랜스포머 확장
BitNet: Scaling 1-bit Transformers for Large Language Models
October 17, 2023
저자: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI
초록
대규모 언어 모델의 규모가 점점 커짐에 따라 배포에 어려움이 발생하고, 높은 에너지 소비로 인한 환경적 영향에 대한 우려가 제기되고 있습니다. 본 연구에서는 대규모 언어 모델을 위해 설계된 확장 가능하고 안정적인 1비트 Transformer 아키텍처인 BitNet을 소개합니다. 구체적으로, 1비트 가중치를 처음부터 학습시키기 위해 nn.Linear 레이어를 대체할 수 있는 BitLinear를 도입했습니다. 언어 모델링 실험 결과, BitNet은 최신 8비트 양자화 방법 및 FP16 Transformer 기준 모델과 비교하여 경쟁력 있는 성능을 유지하면서도 메모리 사용량과 에너지 소비를 크게 줄이는 것으로 나타났습니다. 또한, BitNet은 완전 정밀도 Transformer와 유사한 스케일링 법칙을 보여주며, 이는 효율성과 성능 이점을 유지하면서 더 큰 언어 모델로 효과적으로 확장할 수 있는 잠재력을 시사합니다.
English
The increasing size of large language models has posed challenges for
deployment and raised concerns about environmental impact due to high energy
consumption. In this work, we introduce BitNet, a scalable and stable 1-bit
Transformer architecture designed for large language models. Specifically, we
introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to
train 1-bit weights from scratch. Experimental results on language modeling
show that BitNet achieves competitive performance while substantially reducing
memory footprint and energy consumption, compared to state-of-the-art 8-bit
quantization methods and FP16 Transformer baselines. Furthermore, BitNet
exhibits a scaling law akin to full-precision Transformers, suggesting its
potential for effective scaling to even larger language models while
maintaining efficiency and performance benefits.