MixLLM: LLM-Quantisierung mit globaler gemischter Präzision zwischen Ausgabemerkmale und hoch effizientem Systemdesign
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design
December 19, 2024
Autoren: Zhen Zheng, Xiaonan Song, Chuanjie Liu
cs.AI
Zusammenfassung
Die Quantisierung hat sich zu einer der effektivsten Methoden entwickelt, um LLMs auf kleinere Größen zu komprimieren. Allerdings zeigen die bestehenden Quantisierungslösungen immer noch Einschränkungen in Form von entweder nicht zu vernachlässigenden Genauigkeitsverlusten oder Systemineffizienz. In diesem Paper führen wir eine umfassende Analyse der allgemeinen Quantisierungsprinzipien durch, um deren Auswirkungen auf das Dreieck aus Genauigkeit, Speicherverbrauch und Systemeffizienz zu untersuchen. Wir schlagen MixLLM vor, das den neuen Optimierungsbereich der gemischten Präzisionsquantisierung zwischen Ausgabemerkmale erkundet, basierend auf der Erkenntnis, dass unterschiedliche Ausgabemerkmale im Modell unterschiedlich wichtig sind. MixLLM identifiziert die Ausgabemerkmale mit hoher Relevanz im globalen Kontext, anstatt innerhalb jeder einzelnen Schicht, und weist effektiv den Ausgabemerkmalen mit dem größten Bedarf eine größere Bit-Breite zu, um gute Genauigkeit bei geringem Speicherverbrauch zu erreichen. Wir präsentieren den optimalen Quantisierungskonfigurationspunkt des Algorithmus-System-Co-Designs, der zu hoher Genauigkeit und Systemeffizienz führt. Um die Systemherausforderung anzugehen, entwerfen wir die zweistufige Dezimalisierung, um den int8 Tensor Core einfach zu nutzen und schnelle Datentypkonvertierungen zur Reduzierung des Dezimalisierungsüberkopfs signifikant zu machen, und präsentieren die Software-Pipeline, um den Speicherzugriff, die Dezimalisierung und die Matrizenmultiplikation bestmöglich zu überlappen. Umfangreiche Experimente zeigen, dass mit nur 10% mehr Bits die PPL-Erhöhung von etwa 0,5 bei SOTA auf innerhalb von 0,2 für Llama 3.1 70B reduziert werden kann, während im Durchschnitt MMLU-Pro um 0,93 über dem SOTA von drei beliebten Modellen verbessert. Neben seiner überragenden Genauigkeit erreicht MixLLM auch eine Systemeffizienz auf dem neuesten Stand der Technik.
English
Quantization has become one of the most effective methodologies to compress
LLMs into smaller size. However, the existing quantization solutions still show
limitations of either non-negligible accuracy drop or system inefficiency. In
this paper, we make a comprehensive analysis of the general quantization
principles on their effect to the triangle of accuracy, memory consumption and
system efficiency. We propose MixLLM that explores the new optimization space
of mixed-precision quantization between output features based on the insight
that different output features matter differently in the model. MixLLM
identifies the output features with high salience in the global view rather
than within each single layer, effectively assigning the larger bit-width to
output features that need it most to achieve good accuracy with low memory
consumption. We present the sweet spot of quantization configuration of
algorithm-system co-design that leads to high accuracy and system efficiency.
To address the system challenge, we design the two-step dequantization to make
use of the int8 Tensor Core easily and fast data type conversion to reduce
dequantization overhead significantly, and present the software pipeline to
overlap the memory access, dequantization and the MatMul to the best. Extensive
experiments show that with only 10% more bits, the PPL increasement can be
reduced from about 0.5 in SOTA to within 0.2 for Llama 3.1 70B, while on
average MMLU-Pro improves by 0.93 over the SOTA of three popular models. In
addition to its superior accuracy, MixLLM also achieves state-of-the-art system
efficiency.Summary
AI-Generated Summary