any4: Изученное 4-битное числовое представление для крупных языковых моделей
any4: Learned 4-bit Numeric Representation for LLMs
July 7, 2025
Авторы: Mostafa Elhoushi, Jeff Johnson
cs.AI
Аннотация
Мы представляем any4 — решение для 4-битного квантования весов больших языковых моделей (LLM), основанное на обучении и поддерживающее произвольные числовые представления без необходимости предварительной обработки весов или активаций. any4 демонстрирует более высокую точность по сравнению с другими связанными 4-битными числовыми представлениями: int4, fp4 и nf4, что подтверждено оценкой на моделях различных размеров, поколений и семейств (Llama 2, Llama 3, Mistral и Mixtral). Хотя any4 не требует предварительной обработки весов или активаций, он также конкурентоспособен с ортогональными методами, которые такую обработку требуют (например, AWQ и GPTQ). Мы также экспериментируем с any3 и any2 и показываем их конкурентоспособность при меньшем количестве бит. Кроме того, мы демонстрируем возможность калибровки с использованием одного тщательно отобранного разнообразного образца вместо сотен образцов из набора данных, как это делается в большинстве подходов к квантованию. Мы также открываем исходный код tinygemm — библиотеки для оптимизированного по задержкам матричного умножения на GPU для LLM, которая реализует any4 с использованием эффективной для GPU стратегии таблиц поиска, а также других распространенных методов квантования. Наш код доступен по адресу https://github.com/facebookresearch/any4.
English
We present any4, a learned 4-bit weight quantization solution for large
language models (LLMs) providing arbitrary numeric representations without
requiring pre-processing of weights or activations. any4 yields higher accuracy
compared to other related 4-bit numeric representation types: int4, fp4 and
nf4, as evaluated on a range of model sizes, generations and families (Llama 2,
Llama 3, Mistral and Mixtral). While any4 does not require preprocessing of
weights or activations, it is also competitive with orthogonal techniques that
require such preprocessing (e.g., AWQ and GPTQ). We also experiment with any3
and any2 and show competitiveness at lower bits. Additionally, we show that we
can calibrate using a single curated diverse sample rather than hundreds of
samples from a dataset as done in most quantization approaches. We also open
source tinygemm, a latency optimized GPU matrix multiplication library for
LLMs, that implements any4 using a GPU-efficient lookup table strategy along
with other common quantization methods. We open source our code at
https://github.com/facebookresearch/any4 .