any4: Gelernte 4-Bit-Zahldarstellung für LLMs
any4: Learned 4-bit Numeric Representation for LLMs
July 7, 2025
papers.authors: Mostafa Elhoushi, Jeff Johnson
cs.AI
papers.abstract
Wir stellen any4 vor, eine gelernte 4-Bit-Gewichtsquantisierungslösung für große Sprachmodelle (LLMs), die beliebige numerische Darstellungen ermöglicht, ohne eine Vorverarbeitung von Gewichten oder Aktivierungen zu erfordern. any4 erzielt im Vergleich zu anderen verwandten 4-Bit-numerischen Darstellungstypen – int4, fp4 und nf4 – eine höhere Genauigkeit, wie anhand einer Reihe von Modellgrößen, Generationen und Familien (Llama 2, Llama 3, Mistral und Mixtral) evaluiert wurde. Während any4 keine Vorverarbeitung von Gewichten oder Aktivierungen benötigt, ist es auch wettbewerbsfähig mit orthogonalen Techniken, die eine solche Vorverarbeitung erfordern (z. B. AWQ und GPTQ). Wir experimentieren auch mit any3 und any2 und zeigen Wettbewerbsfähigkeit bei niedrigeren Bitbreiten. Zusätzlich zeigen wir, dass wir die Kalibrierung mit einem einzigen, sorgfältig ausgewählten, diversen Beispiel durchführen können, anstatt Hunderte von Beispielen aus einem Datensatz zu verwenden, wie es bei den meisten Quantisierungsansätzen der Fall ist. Wir stellen auch tinygemm als Open Source zur Verfügung, eine latenzoptimierte GPU-Matrixmultiplikationsbibliothek für LLMs, die any4 mit einer GPU-effizienten Lookup-Table-Strategie sowie andere gängige Quantisierungsmethoden implementiert. Unser Code ist unter https://github.com/facebookresearch/any4 verfügbar.
English
We present any4, a learned 4-bit weight quantization solution for large
language models (LLMs) providing arbitrary numeric representations without
requiring pre-processing of weights or activations. any4 yields higher accuracy
compared to other related 4-bit numeric representation types: int4, fp4 and
nf4, as evaluated on a range of model sizes, generations and families (Llama 2,
Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of
weights or activations, it is also competitive with orthogonal techniques that
require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3
and any2 and show competitiveness at lower bits. Additionally, we show that we
can calibrate using a single curated diverse sample rather than hundreds of
samples from a dataset as done in most quantization approaches. We also open
source tinygemm, a latency optimized GPU matrix multiplication library for
LLMs, that implements any4 using a GPU-efficient lookup table strategy along
with other common quantization methods. We open source our code at
https://github.com/facebookresearch/any4 .