EasyQuant: Ein effizienter datenfreier Quantisierungsalgorithmus für LLMs
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs
March 5, 2024
Autoren: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben sich in verschiedenen Aufgaben als überlegen gegenüber herkömmlichen Methoden erwiesen. Ihre teuren Berechnungen und hohen Speicheranforderungen sind jedoch hinderlich für den Einsatz. Die Modellquantisierung ist eine effektive Methode zur Reduzierung dieses Overheads. Das Problem besteht darin, dass in den meisten früheren Arbeiten das quantisierte Modell unter Verwendung weniger Stichproben aus den Trainingsdaten kalibriert wurde, was die Verallgemeinerung der quantisierten LLMs auf unbekannte Fälle und Aufgaben beeinträchtigen könnte. Daher untersuchen wir in dieser Arbeit eine wichtige Frage: Können wir eine datenunabhängige Quantisierungsmethode für LLMs entwerfen, um deren Verallgemeinerungsleistung zu garantieren? In dieser Arbeit schlagen wir EasyQuant vor, einen trainingsfreien und datenunabhängigen Algorithmus zur Gewichtsquantisierung für LLMs. Unsere Beobachtung zeigt, dass zwei Faktoren - Ausreißer im Gewicht und Quantisierungsbereich - wesentlich sind, um den Quantisierungsfehler zu reduzieren. Daher belassen wir in EasyQuant die Ausreißer (weniger als 1%) unverändert und optimieren den Quantisierungsbereich, um den Rekonstruktionsfehler zu verringern. Mit diesen Methoden stellen wir überraschenderweise fest, dass EasyQuant eine vergleichbare Leistung wie das Originalmodell erreicht. Da EasyQuant nicht auf Trainingsdaten angewiesen ist, wird die Verallgemeinerungsleistung der quantisierten LLMs sicher garantiert. Darüber hinaus kann EasyQuant parallel implementiert werden, sodass das quantisierte Modell selbst für LLMs über 100B in wenigen Minuten erreicht werden kann. Unseres Wissens nach sind wir die erste Arbeit, die unter einer datenunabhängigen Einstellung eine nahezu verlustfreie Quantisierungsleistung für LLMs erreicht, und unser Algorithmus läuft über 10-mal schneller als die datenabhängigen Methoden.
English
Large language models (LLMs) have proven to be very superior to conventional
methods in various tasks. However, their expensive computations and high memory
requirements are prohibitive for deployment. Model quantization is an effective
method for reducing this overhead. The problem is that in most previous works,
the quantized model was calibrated using few samples from the training data,
which might affect the generalization of the quantized LLMs to unknown cases
and tasks. Hence in this work, we explore an important question: Can we design
a data-independent quantization method for LLMs to guarantee its generalization
performance? In this work, we propose EasyQuant, a training-free and
data-independent weight-only quantization algorithm for LLMs. Our observation
indicates that two factors: outliers in the weight and quantization ranges, are
essential for reducing the quantization error. Therefore, in EasyQuant, we
leave the outliers (less than 1%) unchanged and optimize the quantization range
to reduce the reconstruction error. With these methods, we surprisingly find
that EasyQuant achieves comparable performance to the original model. Since
EasyQuant does not depend on any training data, the generalization performance
of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented
in parallel so that the quantized model could be attained in a few minutes even
for LLMs over 100B. To our best knowledge, we are the first work that achieves
almost lossless quantization performance for LLMs under a data-independent
setting and our algorithm runs over 10 times faster than the data-dependent
methods.