BitNet v2: Нативные 4-битные активации с преобразованием Адамара для 1-битных крупных языковых моделей
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
April 25, 2025
Авторы: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI
Аннотация
Эффективное развертывание 1-битных больших языковых моделей (LLM) затруднено из-за выбросов в активациях, что усложняет квантование до низкой битовой ширины. Мы представляем BitNet v2 — новую структуру, позволяющую использовать нативное 4-битное квантование активаций для 1-битных LLM. Для устранения выбросов в активациях внимания и прямого распространения сети мы предлагаем модуль H-BitLinear, который применяет онлайн-преобразование Адамара перед квантованием активаций. Это преобразование сглаживает резкие распределения активаций, приближая их к гауссовым формам, что подходит для низкобитового представления. Эксперименты показывают, что BitNet v2, обученная с нуля с 8-битными активациями, соответствует производительности BitNet b1.58. Важно отметить, что BitNet v2 демонстрирует минимальное снижение производительности при обучении с нативными 4-битными активациями, значительно уменьшая объем памяти и вычислительные затраты при пакетном выводе.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by
activation outliers, which complicate quantization to low bit-widths. We
introduce BitNet v2, a novel framework enabling native 4-bit activation
quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward
network activations, we propose H-BitLinear, a module applying an online
Hadamard transformation prior to activation quantization. This transformation
smooths sharp activation distributions into more Gaussian-like forms, suitable
for low-bit representation. Experiments show BitNet v2 trained from scratch
with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2
achieves minimal performance degradation when trained with native 4-bit
activations, significantly reducing memory footprint and computational cost for
batched inference.Summary
AI-Generated Summary