any4: Geleerde 4-bits numerieke representatie voor LLM's

Samenvatting

We presenteren any4, een geleerde 4-bit gewichtskwantisatieoplossing voor grote taalmmodellen (LLMs) die willekeurige numerieke representaties biedt zonder voorafgaande verwerking van gewichten of activaties. any4 levert een hogere nauwkeurigheid op in vergelijking met andere gerelateerde 4-bit numerieke representatietypen: int4, fp4 en nf4, zoals geëvalueerd op een reeks modelgroottes, generaties en families (Llama 2, Llama 3, Mistral en Mixtral). Hoewel any4 geen voorbewerking van gewichten of activaties vereist, is het ook concurrerend met orthogonale technieken die dergelijke voorbewerking wel vereisen (bijv. AWQ en GPTQ). We experimenteren ook met any3 en any2 en tonen concurrentievermogen bij lagere bits. Daarnaast laten we zien dat we kunnen kalibreren met behulp van een enkele zorgvuldig samengestelde diverse steekproef in plaats van honderden steekproeven uit een dataset, zoals gebruikelijk is in de meeste kwantisatiebenaderingen. We open sourcen ook tinygemm, een latentie-geoptimaliseerde GPU-matrixvermenigvuldigingsbibliotheek voor LLMs, die any4 implementeert met behulp van een GPU-efficiënte lookup-tabelstrategie, samen met andere veelgebruikte kwantisatiemethoden. We open sourcen onze code op https://github.com/facebookresearch/any4.

English

We present any4, a learned 4-bit weight quantization solution for large language models (LLMs) providing arbitrary numeric representations without requiring pre-processing of weights or activations. any4 yields higher accuracy compared to other related 4-bit numeric representation types: int4, fp4 and nf4, as evaluated on a range of model sizes, generations and families (Llama 2, Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of weights or activations, it is also competitive with orthogonal techniques that require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3 and any2 and show competitiveness at lower bits. Additionally, we show that we can calibrate using a single curated diverse sample rather than hundreds of samples from a dataset as done in most quantization approaches. We also open source tinygemm, a latency optimized GPU matrix multiplication library for LLMs, that implements any4 using a GPU-efficient lookup table strategy along with other common quantization methods. We open source our code at https://github.com/facebookresearch/any4 .

any4: Geleerde 4-bits numerieke representatie voor LLM's

any4: Learned 4-bit Numeric Representation for LLMs

Samenvatting

Support