any4: Representação Numérica de 4 Bits Aprendida para LLMs
any4: Learned 4-bit Numeric Representation for LLMs
July 7, 2025
Autores: Mostafa Elhoushi, Jeff Johnson
cs.AI
Resumo
Apresentamos o any4, uma solução aprendida de quantização de pesos de 4 bits para modelos de linguagem de grande escala (LLMs) que fornece representações numéricas arbitrárias sem exigir pré-processamento de pesos ou ativações. O any4 oferece maior precisão em comparação com outros tipos de representação numérica de 4 bits relacionados: int4, fp4 e nf4, conforme avaliado em uma variedade de tamanhos de modelos, gerações e famílias (Llama 2, Llama 3, Mistral e Mixtral). Embora o any4 não exija pré-processamento de pesos ou ativações, ele também é competitivo com técnicas ortogonais que exigem tal pré-processamento (por exemplo, AWQ e GPTQ). Também experimentamos com any3 e any2 e demonstramos competitividade em bits mais baixos. Além disso, mostramos que podemos calibrar usando uma única amostra diversificada e curada, em vez de centenas de amostras de um conjunto de dados, como é feito na maioria das abordagens de quantização. Também disponibilizamos como código aberto o tinygemm, uma biblioteca de multiplicação de matrizes em GPU otimizada para latência em LLMs, que implementa o any4 usando uma estratégia eficiente de tabela de consulta em GPU, juntamente com outros métodos comuns de quantização. Disponibilizamos nosso código em https://github.com/facebookresearch/any4.
English
We present any4, a learned 4-bit weight quantization solution for large
language models (LLMs) providing arbitrary numeric representations without
requiring pre-processing of weights or activations. any4 yields higher accuracy
compared to other related 4-bit numeric representation types: int4, fp4 and
nf4, as evaluated on a range of model sizes, generations and families (Llama 2,
Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of
weights or activations, it is also competitive with orthogonal techniques that
require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3
and any2 and show competitiveness at lower bits. Additionally, we show that we
can calibrate using a single curated diverse sample rather than hundreds of
samples from a dataset as done in most quantization approaches. We also open
source tinygemm, a latency optimized GPU matrix multiplication library for
LLMs, that implements any4 using a GPU-efficient lookup table strategy along
with other common quantization methods. We open source our code at
https://github.com/facebookresearch/any4 .