Optimierung der Gewichtsrundung durch signierten Gradientenabstieg für die Quantisierung von LLMs
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
September 11, 2023
Autoren: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben ihre außergewöhnlichen Fähigkeiten bei der Bewältigung sprachbezogener Aufgaben unter Beweis gestellt. Ihre Bereitstellung stellt jedoch aufgrund des erheblichen Speicher- und Speicherplatzbedarfs erhebliche Herausforderungen dar. Als Reaktion auf dieses Problem hat sich die Gewichtsquantisierung, insbesondere die 3- und 4-Bit-Gewichtsquantisierung, als eine der vielversprechendsten Lösungen herausgestellt. Mit abnehmender Bitanzahl weitet sich das Quantisierungsgitter, was die Bedeutung von Auf- und Abrundung unterstreicht. Während frühere Studien gezeigt haben, dass die Feinabstimmung von Auf- und Abrundung durch die Hinzufügung von Störungen die Genauigkeit in einigen Szenarien verbessern kann, wird unsere Studie durch die präzise und begrenzte Grenze dieser Störungen motiviert, bei der nur der Schwellenwert für die Änderung des Rundungswerts von Bedeutung ist. Folglich schlagen wir einen prägnanten und äußerst effektiven Ansatz zur Optimierung der Gewichtsrundung vor. Unsere Methode, genannt SignRound, beinhaltet eine leichtgewichtige blockweise Feinabstimmung unter Verwendung des Gradientenabstiegs mit Vorzeichen, wodurch wir hervorragende Ergebnisse in weniger als 400 Schritten erzielen können. SignRound übertrifft die etablierte Baseline der Rundung zum nächsten Wert (RTN) und kann sich beeindruckend gegen neuere Methoden behaupten, ohne zusätzlichen Inferenzaufwand zu verursachen. Der Quellcode wird demnächst unter https://github.com/intel/neural-compressor öffentlich verfügbar sein.
English
Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound outperforms the established baseline of
rounding-to-nearest (RTN) and competes impressively against recent methods,
without introducing additional inference overhead. The source code will be
publicly available at https://github.com/intel/neural-compressor soon.