ChatPaper.aiChatPaper

Auf dem Weg zur nächsten Stufe der Post-Training-Quantisierung von Hyper-Scale-Transformern

Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

February 14, 2024
papers.authors: Junhan Kim, Kyungphil Park, Chungman Lee, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon
cs.AI

papers.abstract

Mit der zunehmenden Komplexität generativer KI-Modelle hat sich die Post-Training-Quantisierung (PTQ) als vielversprechende Lösung für die Bereitstellung von hyperskaligen Modellen auf Edge-Geräten wie Mobilgeräten und Fernsehern etabliert. Bestehende PTQ-Schemata verbrauchen jedoch erhebliche Zeit und Ressourcen, was in realen Situationen, in denen häufige Modellaktualisierungen und multiple Hyperparameter-Anpassungen erforderlich sind, ein Engpass sein könnte. Als kosteneffiziente Alternative wurden One-Shot-PTQ-Schemata vorgeschlagen. Dennoch ist die Leistung etwas eingeschränkt, da sie die Inter-Layer-Abhängigkeit innerhalb des Attention-Moduls, ein sehr wichtiges Merkmal von Transformern, nicht berücksichtigen können. In diesem Artikel schlagen wir daher einen neuartigen PTQ-Algorithmus vor, der Genauigkeit und Effizienz in Einklang bringt. Die Kernidee des vorgeschlagenen Algorithmus, genannt aespa, besteht darin, die Quantisierung schichtweise für Effizienz durchzuführen, während gleichzeitig die Cross-Layer-Abhängigkeit berücksichtigt wird, um den Attention-Score zu erhalten. Durch umfangreiche Experimente an verschiedenen Sprachmodellen und eine Komplexitätsanalyse zeigen wir, dass aespa präzise und effizient bei der Quantisierung von Transformer-Modellen ist.
English
With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile devices and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyper-parameter tunings are required. As a cost-effective alternative, one-shot PTQ schemes have been proposed. Still, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a very important feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while considering cross-layer dependency to preserve the attention score. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.
PDF61December 15, 2024