BitNet v2: 1ビット大規模言語モデルのためのハダマール変換を用いたネイティブ4ビット活性化
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
April 25, 2025
著者: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI
要旨
1ビット大規模言語モデル(LLM)の効率的な展開は、活性化の外れ値によって妨げられており、低ビット幅への量子化を複雑にしています。本論文では、1ビットLLMに対してネイティブな4ビット活性化量子化を可能にする新しいフレームワークであるBitNet v2を紹介します。注意機構およびフィードフォワードネットワークの活性化における外れ値に対処するため、活性化量子化の前にオンラインHadamard変換を適用するモジュールであるH-BitLinearを提案します。この変換により、急峻な活性化分布がよりガウス分布に近い形に平滑化され、低ビット表現に適した状態になります。実験結果から、8ビット活性化でスクラッチから学習したBitNet v2はBitNet b1.58の性能を達成することが示されています。重要な点として、BitNet v2はネイティブな4ビット活性化で学習した場合でも性能劣化を最小限に抑え、バッチ推論におけるメモリ使用量と計算コストを大幅に削減します。
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by
activation outliers, which complicate quantization to low bit-widths. We
introduce BitNet v2, a novel framework enabling native 4-bit activation
quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward
network activations, we propose H-BitLinear, a module applying an online
Hadamard transformation prior to activation quantization. This transformation
smooths sharp activation distributions into more Gaussian-like forms, suitable
for low-bit representation. Experiments show BitNet v2 trained from scratch
with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2
achieves minimal performance degradation when trained with native 4-bit
activations, significantly reducing memory footprint and computational cost for
batched inference.Summary
AI-Generated Summary