ChatPaper.aiChatPaper

PrefixQuant: Statische Quantisierung schlägt dynamische durch vorab festgelegte Ausreißer in LLMs.

PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

October 7, 2024
Autoren: Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo
cs.AI

Zusammenfassung

Die Quantisierung ist entscheidend für die Bereitstellung großer Sprachmodelle (LLMs), da sie die Speichereffizienz und die Inferenzgeschwindigkeit verbessert. Bestehende Methoden zur Aktivierungsquantisierung befassen sich hauptsächlich mit kanalweisen Ausreißern, vernachlässigen jedoch oft tokenweise Ausreißer, was zu einer Abhängigkeit von kostspieliger dynamischer Quantisierung pro Token führt. Um dies zu lösen, stellen wir PrefixQuant vor, eine neuartige Technik, die Ausreißer-Token offline isoliert, ohne eine erneute Schulung durchzuführen. Konkret identifiziert PrefixQuant hochfrequente Ausreißer-Token und präfixt sie im KV-Cache, um die Generierung von Ausreißer-Token während der Inferenz zu verhindern und die Quantisierung zu vereinfachen. Nach unserem Kenntnisstand ist PrefixQuant das erste Verfahren, das eine effiziente statische Quantisierung pro Tensor ermöglicht, um die teure dynamische Quantisierung pro Token zu übertreffen. Zum Beispiel erreicht PrefixQuant mit statischer Quantisierung pro Tensor in W4A4KV4 (4-Bit-Gewicht, 4-Bit-Aktivierung und 4-Bit-KV-Cache) Llama-3-8B eine WikiText2-Perplexität von 7,43 und eine durchschnittliche Genauigkeit von 71,08% bei 5 Aufgaben zur gesunden Menschenverstandsbildung, wodurch bisherige Methoden mit dynamischer Quantisierung pro Token wie QuaRot um 0,98 Perplexitätsverbesserung und +5,98 Punkte Genauigkeit übertroffen werden. Darüber hinaus ist die Inferenzgeschwindigkeit von W4A4-quantisierten Modellen mit PrefixQuant 1,60x bis 2,81x schneller als FP16-Modelle und übertrifft QuaRot-Modelle um das 1,2- bis 1,3-fache. Unser Code ist verfügbar unter https://github.com/ChenMnZ/PrefixQuant.
English
Quantization is essential for deploying Large Language Models (LLMs) by enhancing memory efficiency and inference speed. Existing methods for activation quantization mainly address channel-wise outliers, often neglecting token-wise outliers, leading to reliance on costly per-token dynamic quantization. To address this, we introduce PrefixQuant, a novel technique that isolates outlier tokens offline without re-training. Specifically, PrefixQuant identifies high-frequency outlier tokens and prefixes them in the KV cache, preventing the generation of outlier tokens during inference and simplifying quantization. To our knowledge, PrefixQuant is the first to enable efficient per-tensor static quantization to outperform expensive per-token dynamic quantization. For instance, in W4A4KV4 (4- bit weight, 4-bit activation, and 4-bit KV cache) Llama-3-8B, PrefixQuant with per-tensor static quantization achieves a 7.43 WikiText2 perplexity and 71.08% average accuracy on 5 common-sense reasoning tasks, outperforming previous per-token dynamic quantization methods like QuaRot with 0.98 perplexity improvement and +5.98 points accuracy. Additionally, the inference speed of W4A4 quantized models using PrefixQuant is 1.60x to 2.81x faster than FP16 models and exceeds QuaRot models by 1.2x to 1.3x. Our code is available at https://github.com/ChenMnZ/PrefixQuant.

Summary

AI-Generated Summary

PDF312November 16, 2024