Sparse-BitNet: Los LLM de 1.58 bits son Naturalmente Amigables con la Escasez Semi-Estructurada

Resumen

La esparsidad semiestructurada N:M y la cuantización de bajo bit (por ejemplo, BitNet de 1.58 bits) son dos enfoques prometedores para mejorar la eficiencia de los modelos de lenguaje grandes (LLMs), aunque hasta ahora se han estudiado principalmente de forma aislada. En este trabajo, investigamos su interacción y demostramos que BitNet de 1.58 bits es naturalmente más compatible con la esparsidad N:M que los modelos de precisión completa. Para estudiar este efecto, proponemos Sparse-BitNet, un marco unificado que aplica conjuntamente la cuantización de 1.58 bits y la esparsificación dinámica N:M, garantizando por primera vez un entrenamiento estable. A través de múltiples escalas de modelos y regímenes de entrenamiento (preentrenamiento disperso y programaciones de denso a disperso), BitNet de 1.58 bits exhibe consistentemente una menor degradación del rendimiento que los modelos base de precisión completa en los mismos niveles de esparsidad, y puede tolerar una esparsidad estructurada más alta antes del colapso de la precisión. Además, utilizando nuestro núcleo de tensor disperso personalizado, Sparse-BitNet logra aceleraciones sustanciales tanto en el entrenamiento como en la inferencia, alcanzando hasta 1.30X. Estos resultados destacan que combinar la cuantización de bits extremadamente bajos con la esparsidad semiestructurada N:M es una dirección prometedora para LLMs eficientes. Código disponible en https://github.com/AAzdi/Sparse-BitNet.

English

Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet

Sparse-BitNet: Los LLM de 1.58 bits son Naturalmente Amigables con la Escasez Semi-Estructurada

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Resumen

Support