BitNet v2: 1ビット大規模言語モデルのためのハダマール変換を用いたネイティブ4ビット活性化

要旨

1ビット大規模言語モデル（LLM）の効率的な展開は、活性化の外れ値によって妨げられており、低ビット幅への量子化を複雑にしています。本論文では、1ビットLLMに対してネイティブな4ビット活性化量子化を可能にする新しいフレームワークであるBitNet v2を紹介します。注意機構およびフィードフォワードネットワークの活性化における外れ値に対処するため、活性化量子化の前にオンラインHadamard変換を適用するモジュールであるH-BitLinearを提案します。この変換により、急峻な活性化分布がよりガウス分布に近い形に平滑化され、低ビット表現に適した状態になります。実験結果から、8ビット活性化でスクラッチから学習したBitNet v2はBitNet b1.58の性能を達成することが示されています。重要な点として、BitNet v2はネイティブな4ビット活性化で学習した場合でも性能劣化を最小限に抑え、バッチ推論におけるメモリ使用量と計算コストを大幅に削減します。

English

Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

BitNet v2: 1ビット大規模言語モデルのためのハダマール変換を用いたネイティブ4ビット活性化

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

要旨

Support