ChatPaper.aiChatPaper

BitNet v2: Нативные 4-битные активации с преобразованием Адамара для 1-битных крупных языковых моделей

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

April 25, 2025
Авторы: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI

Аннотация

Эффективное развертывание 1-битных больших языковых моделей (LLM) затруднено из-за выбросов в активациях, что усложняет квантование до низкой битовой ширины. Мы представляем BitNet v2 — новую структуру, позволяющую использовать нативное 4-битное квантование активаций для 1-битных LLM. Для устранения выбросов в активациях внимания и прямого распространения сети мы предлагаем модуль H-BitLinear, который применяет онлайн-преобразование Адамара перед квантованием активаций. Это преобразование сглаживает резкие распределения активаций, приближая их к гауссовым формам, что подходит для низкобитового представления. Эксперименты показывают, что BitNet v2, обученная с нуля с 8-битными активациями, соответствует производительности BitNet b1.58. Важно отметить, что BitNet v2 демонстрирует минимальное снижение производительности при обучении с нативными 4-битными активациями, значительно уменьшая объем памяти и вычислительные затраты при пакетном выводе.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

Summary

AI-Generated Summary

PDF392April 28, 2025