BitNet: 大規模言語モデルのための1ビットTransformerのスケーリング
BitNet: Scaling 1-bit Transformers for Large Language Models
October 17, 2023
著者: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI
要旨
大規模言語モデルのサイズ増大に伴い、デプロイメントにおける課題や、高いエネルギー消費による環境への影響が懸念されている。本研究では、大規模言語モデル向けに設計されたスケーラブルで安定した1ビットTransformerアーキテクチャであるBitNetを提案する。具体的には、1ビットの重みをゼロから学習するために、nn.Linear層の代替としてBitLinearを導入する。言語モデリングにおける実験結果から、BitNetは最先端の8ビット量子化手法やFP16 Transformerベースラインと比較して、競争力のある性能を維持しつつ、メモリフットプリントとエネルギー消費を大幅に削減することが示された。さらに、BitNetはフル精度のTransformerと同様のスケーリング則を示し、効率性と性能の利点を維持しながら、さらに大規模な言語モデルへの効果的なスケーリングの可能性を示唆している。
English
The increasing size of large language models has posed challenges for
deployment and raised concerns about environmental impact due to high energy
consumption. In this work, we introduce BitNet, a scalable and stable 1-bit
Transformer architecture designed for large language models. Specifically, we
introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to
train 1-bit weights from scratch. Experimental results on language modeling
show that BitNet achieves competitive performance while substantially reducing
memory footprint and energy consumption, compared to state-of-the-art 8-bit
quantization methods and FP16 Transformer baselines. Furthermore, BitNet
exhibits a scaling law akin to full-precision Transformers, suggesting its
potential for effective scaling to even larger language models while
maintaining efficiency and performance benefits.