Sparse-BitNet: Modelli Linguistici a 1.58-bit Sono Intrinsecamente Adatti alla Sparsità Semi-strutturata

Abstract

La sparsità semi-strutturata N:M e la quantizzazione a basso bit (ad esempio, BitNet a 1.58 bit) sono due approcci promettenti per migliorare l'efficienza dei Large Language Model (LLM), ma sono stati finora studiati principalmente in modo isolato. In questo lavoro, ne investigiamo l'interazione e dimostriamo che BitNet a 1.58 bit è intrinsecamente più compatibile con la sparsità N:M rispetto ai modelli in precisione piena. Per studiare questo effetto, proponiamo Sparse-BitNet, un framework unificato che applica congiuntamente la quantizzazione a 1.58 bit e la sparsificazione N:M dinamica, garantendo per la prima volta un addestramento stabile. Attraverso molteplici scale modelli e regimi di addestramento (pre-training sparso e schedulazioni dense-to-sparse), BitNet a 1.58 bit mostra costantemente un degrado delle prestazioni inferiore rispetto ai baseline in precisione piena agli stessi livelli di sparsità e può tollerare una sparsità strutturata più elevata prima del collasso dell'accuratezza. Inoltre, utilizzando la nostra unità di calcolo tensoriale sparsa personalizzata, Sparse-BitNet raggiunge accelerazioni sostanziali sia in addestramento che in inferenza, fino a 1.30X. Questi risultati evidenziano come combinare la quantizzazione a bit estremamente bassi con la sparsità semi-strutturata N:M sia una direzione promettente per LLM efficienti. Codice disponibile all'indirizzo https://github.com/AAzdi/Sparse-BitNet.

English

Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet

Sparse-BitNet: Modelli Linguistici a 1.58-bit Sono Intrinsecamente Adatti alla Sparsità Semi-strutturata

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Abstract

Support