any4: Representación numérica de 4 bits aprendida para LLMs
any4: Learned 4-bit Numeric Representation for LLMs
July 7, 2025
Autores: Mostafa Elhoushi, Jeff Johnson
cs.AI
Resumen
Presentamos any4, una solución de cuantización de pesos de 4 bits aprendida para modelos de lenguaje grandes (LLMs) que proporciona representaciones numéricas arbitrarias sin requerir preprocesamiento de pesos o activaciones. any4 ofrece una mayor precisión en comparación con otros tipos de representaciones numéricas de 4 bits relacionados: int4, fp4 y nf4, según se evaluó en una variedad de tamaños de modelos, generaciones y familias (Llama 2, Llama 3, Mistral y Mixtral). Aunque any4 no requiere preprocesamiento de pesos o activaciones, también es competitivo con técnicas ortogonales que sí lo requieren (por ejemplo, AWQ y GPTQ). También experimentamos con any3 y any2 y demostramos su competitividad en bits más bajos. Además, mostramos que podemos calibrar utilizando una única muestra diversa seleccionada en lugar de cientos de muestras de un conjunto de datos, como se hace en la mayoría de los enfoques de cuantización. También liberamos tinygemm, una biblioteca de multiplicación de matrices optimizada para latencia en GPU para LLMs, que implementa any4 utilizando una estrategia eficiente de tabla de búsqueda en GPU junto con otros métodos comunes de cuantización. Liberamos nuestro código en https://github.com/facebookresearch/any4.
English
We present any4, a learned 4-bit weight quantization solution for large
language models (LLMs) providing arbitrary numeric representations without
requiring pre-processing of weights or activations. any4 yields higher accuracy
compared to other related 4-bit numeric representation types: int4, fp4 and
nf4, as evaluated on a range of model sizes, generations and families (Llama 2,
Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of
weights or activations, it is also competitive with orthogonal techniques that
require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3
and any2 and show competitiveness at lower bits. Additionally, we show that we
can calibrate using a single curated diverse sample rather than hundreds of
samples from a dataset as done in most quantization approaches. We also open
source tinygemm, a latency optimized GPU matrix multiplication library for
LLMs, that implements any4 using a GPU-efficient lookup table strategy along
with other common quantization methods. We open source our code at
https://github.com/facebookresearch/any4 .