any4: Rappresentazione numerica appresa a 4 bit per LLM

Abstract

Presentiamo any4, una soluzione appresa per la quantizzazione a 4 bit dei pesi nei grandi modelli linguistici (LLM) che fornisce rappresentazioni numeriche arbitrarie senza richiedere pre-elaborazione dei pesi o delle attivazioni. any4 offre una maggiore accuratezza rispetto ad altri tipi di rappresentazione numerica a 4 bit correlati: int4, fp4 e nf4, come valutato su una gamma di dimensioni, generazioni e famiglie di modelli (Llama 2, Llama 3, Mistral e Mixtral). Sebbene any4 non richieda pre-elaborazione dei pesi o delle attivazioni, è anche competitivo con tecniche ortogonali che richiedono tale pre-elaborazione (ad esempio, AWQ e GPTQ). Sperimentiamo anche con any3 e any2 e dimostriamo competitività a bit inferiori. Inoltre, mostriamo che possiamo calibrare utilizzando un singolo campione curato e diversificato piuttosto che centinaia di campioni da un dataset, come avviene nella maggior parte degli approcci di quantizzazione. Open source anche tinygemm, una libreria ottimizzata per la latenza della moltiplicazione di matrici su GPU per LLM, che implementa any4 utilizzando una strategia efficiente su GPU basata su tabelle di ricerca insieme ad altri metodi comuni di quantizzazione. Rendiamo disponibile il nostro codice su https://github.com/facebookresearch/any4.

English

We present any4, a learned 4-bit weight quantization solution for large language models (LLMs) providing arbitrary numeric representations without requiring pre-processing of weights or activations. any4 yields higher accuracy compared to other related 4-bit numeric representation types: int4, fp4 and nf4, as evaluated on a range of model sizes, generations and families (Llama 2, Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of weights or activations, it is also competitive with orthogonal techniques that require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3 and any2 and show competitiveness at lower bits. Additionally, we show that we can calibrate using a single curated diverse sample rather than hundreds of samples from a dataset as done in most quantization approaches. We also open source tinygemm, a latency optimized GPU matrix multiplication library for LLMs, that implements any4 using a GPU-efficient lookup table strategy along with other common quantization methods. We open source our code at https://github.com/facebookresearch/any4 .

any4: Rappresentazione numerica appresa a 4 bit per LLM

any4: Learned 4-bit Numeric Representation for LLMs

Abstract

Support