ChatPaper.aiChatPaper

BitNet: Scalabilità di Trasformatori a 1-bit per Modelli Linguistici di Grandi Dimensioni

BitNet: Scaling 1-bit Transformers for Large Language Models

October 17, 2023
Autori: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI

Abstract

La crescente dimensione dei modelli linguistici di grandi dimensioni ha posto sfide per il loro dispiegamento e sollevato preoccupazioni riguardo all'impatto ambientale a causa dell'elevato consumo energetico. In questo lavoro, introduciamo BitNet, un'architettura Transformer scalabile e stabile a 1 bit progettata per modelli linguistici di grandi dimensioni. Nello specifico, introduciamo BitLinear come sostituto diretto del livello nn.Linear per addestrare pesi a 1 bit da zero. I risultati sperimentali sulla modellazione linguistica mostrano che BitNet raggiunge prestazioni competitive riducendo sostanzialmente l'impronta di memoria e il consumo energetico, rispetto ai metodi di quantizzazione a 8 bit all'avanguardia e ai baseline Transformer FP16. Inoltre, BitNet mostra una legge di scala simile ai Transformer a precisione completa, suggerendo il suo potenziale per un'effettiva scalabilità a modelli linguistici ancora più grandi, mantenendo i benefici in termini di efficienza e prestazioni.
English
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
PDF10513December 15, 2024