Sparse-BitNet: 1.58-битные большие языковые модели естественным образом дружественны к полуструктурированной разреженности

Аннотация

Полуструктурированная N:M разреженность и низкобитная квантизация (например, 1.58-битный BitNet) — это два перспективных подхода к повышению эффективности больших языковых моделей (LLM), однако до сих пор они изучались преимущественно изолированно. В данной работе мы исследуем их взаимодействие и показываем, что 1.58-битный BitNet по своей природе более совместим с N:M разреженностью, чем модели с полной точностью. Для изучения этого эффекта мы предлагаем Sparse-BitNet — унифицированную структуру, которая впервые обеспечивает стабильное обучение при совместном применении 1.58-битной квантизации и динамической N:M разреживания. На различных масштабах моделей и режимах обучения (разреженное предварительное обучение и схемы "от плотной к разреженной") 1.58-битный BitNet последовательно демонстрирует меньшее снижение производительности по сравнению с базовыми вариантами с полной точностью при тех же уровнях разреженности и способен выдерживать более высокую структурную разреженность до коллапса точности. Более того, с использованием нашего специализированного ядра для разреженных тензоров Sparse-BitNet достигает значительного ускорения как при обучении, так и при выводе — до 1.30 раза. Эти результаты подчеркивают, что комбинация экстремально низкобитной квантизации с полуструктурированной N:M разреженностью является перспективным направлением для создания эффективных LLM. Код доступен по адресу https://github.com/AAzdi/Sparse-BitNet.

English

Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet

Sparse-BitNet: 1.58-битные большие языковые модели естественным образом дружественны к полуструктурированной разреженности

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Аннотация

Support