Sparse-BitNet : Des modèles de langage à 1,58 bit sont naturellement adaptés à la parcimonie semi-structurée

Résumé

La parcimonie semi-structurée N:M et la quantification basse précision (par exemple, le BitNet 1,58-bit) sont deux approches prometteuses pour améliorer l'efficacité des grands modèles de langage (LLM), mais elles ont largement été étudiées de manière isolée. Dans ce travail, nous étudions leur interaction et montrons que le BitNet 1,58-bit est naturellement plus compatible avec la parcimonie N:M que les modèles en pleine précision. Pour étudier cet effet, nous proposons Sparse-BitNet, un cadre unifié qui applique conjointement la quantification 1,58-bit et la sparsification dynamique N:M tout en garantissant, pour la première fois, un apprentissage stable. Sur plusieurs échelles de modèles et régimes d'apprentissage (pré-entraînement parcimonieux et stratégies dense-vers-parcimonieux), le BitNet 1,58-bit présente systématiquement une dégradation des performances plus faible que les modèles de référence en pleine précision aux mêmes niveaux de parcimonie, et peut tolérer une parcimonie structurée plus élevée avant un effondrement de la précision. De plus, en utilisant notre cœur de tenseur parcimonieux personnalisé, Sparse-BitNet atteint des accélérations substantielles à la fois lors de l'entraînement et de l'inférence, jusqu'à 1,30X. Ces résultats soulignent que la combinaison d'une quantification à très faible précision avec une parcimonie semi-structurée N:M est une voie prometteuse pour des LLM efficaces. Code disponible à l'adresse https://github.com/AAzdi/Sparse-BitNet

English

Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet

Sparse-BitNet : Des modèles de langage à 1,58 bit sont naturellement adaptés à la parcimonie semi-structurée

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Résumé

Support