BitNet: Escalonando Transformers de 1-bit para Modelos de Linguagem de Grande Escala
BitNet: Scaling 1-bit Transformers for Large Language Models
October 17, 2023
Autores: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI
Resumo
O crescente tamanho dos grandes modelos de linguagem tem apresentado desafios para implantação e levantado preocupações sobre o impacto ambiental devido ao alto consumo de energia. Neste trabalho, apresentamos o BitNet, uma arquitetura Transformer escalável e estável de 1 bit projetada para grandes modelos de linguagem. Especificamente, introduzimos o BitLinear como uma substituição direta da camada nn.Linear para treinar pesos de 1 bit a partir do zero. Resultados experimentais em modelagem de linguagem mostram que o BitNet alcança desempenho competitivo enquanto reduz substancialmente a pegada de memória e o consumo de energia, em comparação com métodos de quantização de 8 bits de última geração e baselines Transformer FP16. Além disso, o BitNet exibe uma lei de escalonamento semelhante aos Transformers de precisão total, sugerindo seu potencial para escalonamento eficaz para modelos de linguagem ainda maiores, mantendo os benefícios de eficiência e desempenho.
English
The increasing size of large language models has posed challenges for
deployment and raised concerns about environmental impact due to high energy
consumption. In this work, we introduce BitNet, a scalable and stable 1-bit
Transformer architecture designed for large language models. Specifically, we
introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to
train 1-bit weights from scratch. Experimental results on language modeling
show that BitNet achieves competitive performance while substantially reducing
memory footprint and energy consumption, compared to state-of-the-art 8-bit
quantization methods and FP16 Transformer baselines. Furthermore, BitNet
exhibits a scaling law akin to full-precision Transformers, suggesting its
potential for effective scaling to even larger language models while
maintaining efficiency and performance benefits.