Sparse-BitNet: LLMs de 1,58 bits são Naturalmente Amigáveis à Esparsidade Semiestruturada

Resumo

A esparsidade semiestruturada N:M e a quantização de baixos bits (por exemplo, BitNet de 1,58 bits) são duas abordagens promissoras para melhorar a eficiência de grandes modelos de linguagem (LLMs), mas têm sido amplamente estudadas de forma isolada. Neste trabalho, investigamos a sua interação e mostramos que o BitNet de 1,58 bits é naturalmente mais compatível com a esparsidade N:M do que os modelos de precisão completa. Para estudar este efeito, propomos o Sparse-BitNet, uma estrutura unificada que aplica conjuntamente a quantização de 1,58 bits e a esparsificação dinâmica N:M, garantindo, pela primeira vez, um treinamento estável. Em várias escalas de modelo e regimes de treinamento (pré-treinamento esparso e cronogramas denso-para-esparso), o BitNet de 1,58 bits exibe consistentemente uma degradação de desempenho menor do que as linhas de base de precisão completa nos mesmos níveis de esparsidade e pode tolerar uma esparsidade estruturada mais elevada antes do colapso da precisão. Além disso, usando o nosso núcleo de tensor esparso personalizado, o Sparse-BitNet alcança acelerações substanciais tanto no treinamento quanto na inferência, chegando até a 1,30X. Estes resultados destacam que combinar quantização extremamente baixa em bits com esparsidade semiestruturada N:M é uma direção promissora para LLMs eficientes. Código disponível em https://github.com/AAzdi/Sparse-BitNet.

English

Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet

Sparse-BitNet: LLMs de 1,58 bits são Naturalmente Amigáveis à Esparsidade Semiestruturada

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Resumo

Support