ChatPaper.aiChatPaper

BitNet: Schaalbaarheid van 1-bit Transformers voor Grote Taalmodellen

BitNet: Scaling 1-bit Transformers for Large Language Models

October 17, 2023
Auteurs: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI

Samenvatting

De toenemende omvang van grote taalmodellemodellen heeft uitdagingen opgeleverd voor implementatie en zorgen gewekt over de milieueffecten vanwege het hoge energieverbruik. In dit werk introduceren we BitNet, een schaalbare en stabiele 1-bit Transformer-architectuur ontworpen voor grote taalmodellemodellen. Specifiek introduceren we BitLinear als een directe vervanging van de nn.Linear-laag om 1-bit gewichten vanaf nul te trainen. Experimentele resultaten voor taalmodellemodellen laten zien dat BitNet competitieve prestaties bereikt terwijl het geheugengebruik en energieverbruik aanzienlijk worden verminderd, vergeleken met state-of-the-art 8-bit kwantiseringsmethoden en FP16 Transformer-baselines. Bovendien vertoont BitNet een schaalwet die vergelijkbaar is met volledige precisie Transformers, wat suggereert dat het potentieel heeft om effectief op te schalen naar nog grotere taalmodellemodellen terwijl de efficiëntie en prestatievoordelen behouden blijven.
English
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
PDF10513December 15, 2024