ChatPaper.aiChatPaper

BitNet v2: Ativações Nativas de 4 bits com Transformação de Hadamard para LLMs de 1 bit

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

April 25, 2025
Autores: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI

Resumo

A implantação eficiente de modelos de linguagem de grande escala (LLMs) de 1 bit é prejudicada por outliers de ativação, que complicam a quantização para larguras de bits baixas. Apresentamos o BitNet v2, uma nova estrutura que permite a quantização nativa de ativações de 4 bits para LLMs de 1 bit. Para lidar com outliers nas ativações da rede de atenção e feed-forward, propomos o H-BitLinear, um módulo que aplica uma transformação de Hadamard online antes da quantização da ativação. Essa transformação suaviza distribuições de ativação abruptas em formas mais semelhantes a Gaussianas, adequadas para representação de baixo bit. Experimentos mostram que o BitNet v2 treinado do zero com ativações de 8 bits iguala o desempenho do BitNet b1.58. Crucialmente, o BitNet v2 alcança degradação mínima de desempenho quando treinado com ativações nativas de 4 bits, reduzindo significativamente a pegada de memória e o custo computacional para inferência em lote.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

Summary

AI-Generated Summary

PDF392April 28, 2025