any4 : Représentation numérique 4 bits apprise pour les grands modèles de langage

papers.abstract

Nous présentons any4, une solution de quantification des poids sur 4 bits apprise pour les grands modèles de langage (LLMs), offrant des représentations numériques arbitraires sans nécessiter de prétraitement des poids ou des activations. any4 offre une précision supérieure par rapport à d'autres types de représentations numériques sur 4 bits : int4, fp4 et nf4, comme évalué sur une gamme de tailles de modèles, de générations et de familles (Llama 2, Llama 3, Mistral et Mixtral). Bien qu'any4 ne nécessite pas de prétraitement des poids ou des activations, il est également compétitif avec des techniques orthogonales qui nécessitent un tel prétraitement (par exemple, AWQ et GPTQ). Nous expérimentons également avec any3 et any2 et montrons leur compétitivité à des nombres de bits inférieurs. De plus, nous montrons que nous pouvons effectuer l'étalonnage en utilisant un seul échantillon diversifié plutôt que des centaines d'échantillons provenant d'un ensemble de données, comme c'est le cas dans la plupart des approches de quantification. Nous ouvrons également le code source de tinygemm, une bibliothèque de multiplication matricielle GPU optimisée pour la latence pour les LLMs, qui implémente any4 en utilisant une stratégie de table de recherche efficace sur GPU ainsi que d'autres méthodes de quantification courantes. Nous ouvrons notre code source à l'adresse https://github.com/facebookresearch/any4.

English

We present any4, a learned 4-bit weight quantization solution for large language models (LLMs) providing arbitrary numeric representations without requiring pre-processing of weights or activations. any4 yields higher accuracy compared to other related 4-bit numeric representation types: int4, fp4 and nf4, as evaluated on a range of model sizes, generations and families (Llama 2, Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of weights or activations, it is also competitive with orthogonal techniques that require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3 and any2 and show competitiveness at lower bits. Additionally, we show that we can calibrate using a single curated diverse sample rather than hundreds of samples from a dataset as done in most quantization approaches. We also open source tinygemm, a latency optimized GPU matrix multiplication library for LLMs, that implements any4 using a GPU-efficient lookup table strategy along with other common quantization methods. We open source our code at https://github.com/facebookresearch/any4 .

any4 : Représentation numérique 4 bits apprise pour les grands modèles de langage

any4: Learned 4-bit Numeric Representation for LLMs

papers.abstract

Support