Sparse-BitNet: 1.58-bit LLM's zijn van nature geschikt voor semi-gestructureerde sparsiteit
Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity
March 5, 2026
Auteurs: Di Zhang, Xun Wu, Shaohan Huang, Yudong Wang, Hanyong Shao, Yingbo Hao, Zewen Chi, Li Dong, Ting Song, Yan Xia, Zhifang Sui, Furu Wei
cs.AI
Samenvatting
Halfgestructureerde N:M-sparsiteit en kwantisatie met weinig bits (zoals 1.58-bit BitNet) zijn twee veelbelovende benaderingen om de efficiëntie van grote taalmmodellen (LLM's) te verbeteren, maar ze zijn tot nu toe grotendeels afzonderlijk bestudeerd. In dit werk onderzoeken we hun interactie en tonen we aan dat 1.58-bit BitNet van nature compatibeler is met N:M-sparsiteit dan modellen met volledige precisie. Om dit effect te bestuderen, stellen we Sparse-BitNet voor, een uniform raamwerk dat voor het eerst gezamenlijk 1.58-bit-kwantisatie en dynamische N:M-sparsificatie toepast, waarbij een stabiele training wordt gegarandeerd. Over verschillende modelschalen en trainingsregimes (sparse pretraining en dense-to-sparse schema's) heen vertoont 1.58-bit BitNet consistent een kleinere prestatievermindering dan de basislijnen met volledige precisie bij dezelfde sparsiteitsniveaus, en kan het een hogere gestructureerde sparsiteit verdragen voordat de nauwkeurigheid ineenstort. Bovendien behaalt Sparse-BitNet, door gebruik te maken van onze aangepaste sparse tensor core, aanzienlijke snelheidswinsten in zowel training als inferentie, tot wel 1.30X. Deze resultaten benadrukken dat het combineren van extreem lage-bit-kwantisatie met halfgestructureerde N:M-sparsiteit een veelbelovende richting is voor efficiënte LLM's. Code beschikbaar op https://github.com/AAzdi/Sparse-BitNet
English
Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet