BitNet: Skalierung von 1-Bit-Transformern für große Sprachmodelle
BitNet: Scaling 1-bit Transformers for Large Language Models
October 17, 2023
Autoren: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI
Zusammenfassung
Die zunehmende Größe großer Sprachmodelle hat Herausforderungen bei der Bereitstellung geschaffen und Bedenken hinsichtlich der Umweltauswirkungen aufgrund des hohen Energieverbrauchs aufgeworfen. In dieser Arbeit stellen wir BitNet vor, eine skalierbare und stabile 1-Bit-Transformer-Architektur, die für große Sprachmodelle entwickelt wurde. Insbesondere führen wir BitLinear als direkten Ersatz für die nn.Linear-Schicht ein, um 1-Bit-Gewichte von Grund auf zu trainieren. Experimentelle Ergebnisse im Bereich der Sprachmodellierung zeigen, dass BitNet eine wettbewerbsfähige Leistung erzielt und gleichzeitig den Speicherbedarf und den Energieverbrauch im Vergleich zu modernen 8-Bit-Quantisierungsmethoden und FP16-Transformer-Baselines erheblich reduziert. Darüber hinaus zeigt BitNet ein Skalierungsgesetz, das dem von vollpräzisen Transformern ähnelt, was auf sein Potenzial hinweist, effektiv auf noch größere Sprachmodelle skaliert zu werden, während die Effizienz- und Leistungsvorteile erhalten bleiben.
English
The increasing size of large language models has posed challenges for
deployment and raised concerns about environmental impact due to high energy
consumption. In this work, we introduce BitNet, a scalable and stable 1-bit
Transformer architecture designed for large language models. Specifically, we
introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to
train 1-bit weights from scratch. Experimental results on language modeling
show that BitNet achieves competitive performance while substantially reducing
memory footprint and energy consumption, compared to state-of-the-art 8-bit
quantization methods and FP16 Transformer baselines. Furthermore, BitNet
exhibits a scaling law akin to full-precision Transformers, suggesting its
potential for effective scaling to even larger language models while
maintaining efficiency and performance benefits.