BitNet: Scalabilità di Trasformatori a 1-bit per Modelli Linguistici di Grandi Dimensioni

Abstract

La crescente dimensione dei modelli linguistici di grandi dimensioni ha posto sfide per il loro dispiegamento e sollevato preoccupazioni riguardo all'impatto ambientale a causa dell'elevato consumo energetico. In questo lavoro, introduciamo BitNet, un'architettura Transformer scalabile e stabile a 1 bit progettata per modelli linguistici di grandi dimensioni. Nello specifico, introduciamo BitLinear come sostituto diretto del livello nn.Linear per addestrare pesi a 1 bit da zero. I risultati sperimentali sulla modellazione linguistica mostrano che BitNet raggiunge prestazioni competitive riducendo sostanzialmente l'impronta di memoria e il consumo energetico, rispetto ai metodi di quantizzazione a 8 bit all'avanguardia e ai baseline Transformer FP16. Inoltre, BitNet mostra una legge di scala simile ai Transformer a precisione completa, suggerendo il suo potenziale per un'effettiva scalabilità a modelli linguistici ancora più grandi, mantenendo i benefici in termini di efficienza e prestazioni.

English

The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.

BitNet: Scalabilità di Trasformatori a 1-bit per Modelli Linguistici di Grandi Dimensioni

BitNet: Scaling 1-bit Transformers for Large Language Models

Abstract

Support