any4 : Représentation numérique 4 bits apprise pour les grands modèles de langage
any4: Learned 4-bit Numeric Representation for LLMs
July 7, 2025
papers.authors: Mostafa Elhoushi, Jeff Johnson
cs.AI
papers.abstract
Nous présentons any4, une solution de quantification des poids sur 4 bits apprise pour les grands modèles de langage (LLMs), offrant des représentations numériques arbitraires sans nécessiter de prétraitement des poids ou des activations. any4 offre une précision supérieure par rapport à d'autres types de représentations numériques sur 4 bits : int4, fp4 et nf4, comme évalué sur une gamme de tailles de modèles, de générations et de familles (Llama 2, Llama 3, Mistral et Mixtral). Bien qu'any4 ne nécessite pas de prétraitement des poids ou des activations, il est également compétitif avec des techniques orthogonales qui nécessitent un tel prétraitement (par exemple, AWQ et GPTQ). Nous expérimentons également avec any3 et any2 et montrons leur compétitivité à des nombres de bits inférieurs. De plus, nous montrons que nous pouvons effectuer l'étalonnage en utilisant un seul échantillon diversifié plutôt que des centaines d'échantillons provenant d'un ensemble de données, comme c'est le cas dans la plupart des approches de quantification. Nous ouvrons également le code source de tinygemm, une bibliothèque de multiplication matricielle GPU optimisée pour la latence pour les LLMs, qui implémente any4 en utilisant une stratégie de table de recherche efficace sur GPU ainsi que d'autres méthodes de quantification courantes. Nous ouvrons notre code source à l'adresse https://github.com/facebookresearch/any4.
English
We present any4, a learned 4-bit weight quantization solution for large
language models (LLMs) providing arbitrary numeric representations without
requiring pre-processing of weights or activations. any4 yields higher accuracy
compared to other related 4-bit numeric representation types: int4, fp4 and
nf4, as evaluated on a range of model sizes, generations and families (Llama 2,
Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of
weights or activations, it is also competitive with orthogonal techniques that
require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3
and any2 and show competitiveness at lower bits. Additionally, we show that we
can calibrate using a single curated diverse sample rather than hundreds of
samples from a dataset as done in most quantization approaches. We also open
source tinygemm, a latency optimized GPU matrix multiplication library for
LLMs, that implements any4 using a GPU-efficient lookup table strategy along
with other common quantization methods. We open source our code at
https://github.com/facebookresearch/any4 .