any4: Geleerde 4-bits numerieke representatie voor LLM's
any4: Learned 4-bit Numeric Representation for LLMs
July 7, 2025
Auteurs: Mostafa Elhoushi, Jeff Johnson
cs.AI
Samenvatting
We presenteren any4, een geleerde 4-bit gewichtskwantisatieoplossing voor grote taalmmodellen (LLMs) die willekeurige numerieke representaties biedt zonder voorafgaande verwerking van gewichten of activaties. any4 levert een hogere nauwkeurigheid op in vergelijking met andere gerelateerde 4-bit numerieke representatietypen: int4, fp4 en nf4, zoals geëvalueerd op een reeks modelgroottes, generaties en families (Llama 2, Llama 3, Mistral en Mixtral). Hoewel any4 geen voorbewerking van gewichten of activaties vereist, is het ook concurrerend met orthogonale technieken die dergelijke voorbewerking wel vereisen (bijv. AWQ en GPTQ). We experimenteren ook met any3 en any2 en tonen concurrentievermogen bij lagere bits. Daarnaast laten we zien dat we kunnen kalibreren met behulp van een enkele zorgvuldig samengestelde diverse steekproef in plaats van honderden steekproeven uit een dataset, zoals gebruikelijk is in de meeste kwantisatiebenaderingen. We open sourcen ook tinygemm, een latentie-geoptimaliseerde GPU-matrixvermenigvuldigingsbibliotheek voor LLMs, die any4 implementeert met behulp van een GPU-efficiënte lookup-tabelstrategie, samen met andere veelgebruikte kwantisatiemethoden. We open sourcen onze code op https://github.com/facebookresearch/any4.
English
We present any4, a learned 4-bit weight quantization solution for large
language models (LLMs) providing arbitrary numeric representations without
requiring pre-processing of weights or activations. any4 yields higher accuracy
compared to other related 4-bit numeric representation types: int4, fp4 and
nf4, as evaluated on a range of model sizes, generations and families (Llama 2,
Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of
weights or activations, it is also competitive with orthogonal techniques that
require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3
and any2 and show competitiveness at lower bits. Additionally, we show that we
can calibrate using a single curated diverse sample rather than hundreds of
samples from a dataset as done in most quantization approaches. We also open
source tinygemm, a latency optimized GPU matrix multiplication library for
LLMs, that implements any4 using a GPU-efficient lookup table strategy along
with other common quantization methods. We open source our code at
https://github.com/facebookresearch/any4 .