ChatPaper.aiChatPaper

BitNet v2: Activaciones nativas de 4 bits con Transformación de Hadamard para LLMs de 1 bit

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

April 25, 2025
Autores: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI

Resumen

El despliegue eficiente de modelos de lenguaje grandes (LLMs) de 1 bit se ve obstaculizado por los valores atípicos en las activaciones, lo que complica la cuantización a bajos anchos de bits. Presentamos BitNet v2, un marco novedoso que permite la cuantización nativa de activaciones de 4 bits para LLMs de 1 bit. Para abordar los valores atípicos en las activaciones de la atención y la red de alimentación directa, proponemos H-BitLinear, un módulo que aplica una transformación de Hadamard en línea antes de la cuantización de las activaciones. Esta transformación suaviza las distribuciones de activaciones abruptas en formas más parecidas a las gaussianas, adecuadas para la representación de bajo bit. Los experimentos muestran que BitNet v2 entrenado desde cero con activaciones de 8 bits iguala el rendimiento de BitNet b1.58. Crucialmente, BitNet v2 logra una degradación mínima del rendimiento cuando se entrena con activaciones nativas de 4 bits, reduciendo significativamente la huella de memoria y el costo computacional para la inferencia por lotes.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

Summary

AI-Generated Summary

PDF392April 28, 2025