Vers une quantification post-entraînement de nouvelle génération pour les transformeurs à très grande échelle
Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers
February 14, 2024
Auteurs: Junhan Kim, Kyungphil Park, Chungman Lee, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon
cs.AI
Résumé
Face à la complexité croissante des modèles d'IA générative, la quantification post-entraînement (PTQ) s'est imposée comme une solution prometteuse pour déployer des modèles hyper-scalaires sur des appareils embarqués tels que les mobiles et les téléviseurs. Cependant, les schémas de PTQ existants consomment un temps et des ressources considérables, ce qui peut constituer un goulot d'étranglement dans des situations réelles où des mises à jour fréquentes du modèle et des réglages multiples d'hyperparamètres sont nécessaires. En tant qu'alternative économique, des schémas de PTQ en une seule étape ont été proposés. Néanmoins, leurs performances restent limitées car ils ne prennent pas en compte la dépendance inter-couches au sein du module d'attention, une caractéristique essentielle des Transformers. Dans cet article, nous proposons donc un nouvel algorithme de PTQ qui équilibre précision et efficacité. L'idée clé de l'algorithme proposé, appelé aespa, est d'effectuer la quantification couche par couche pour l'efficacité tout en tenant compte de la dépendance inter-couches pour préserver le score d'attention. À travers des expériences approfondies sur divers modèles de langage et une analyse de complexité, nous démontrons qu'aespa est à la fois précis et efficace pour quantifier les modèles Transformer.
English
With the increasing complexity of generative AI models, post-training
quantization (PTQ) has emerged as a promising solution for deploying
hyper-scale models on edge devices such as mobile devices and TVs. Existing PTQ
schemes, however, consume considerable time and resources, which could be a
bottleneck in real situations where frequent model updates and multiple
hyper-parameter tunings are required. As a cost-effective alternative, one-shot
PTQ schemes have been proposed. Still, the performance is somewhat limited
because they cannot consider the inter-layer dependency within the attention
module, which is a very important feature of Transformers. In this paper, we
thus propose a novel PTQ algorithm that balances accuracy and efficiency. The
key idea of the proposed algorithm called aespa is to perform quantization
layer-wise for efficiency while considering cross-layer dependency to preserve
the attention score. Through extensive experiments on various language models
and complexity analysis, we demonstrate that aespa is accurate and efficient in
quantizing Transformer models.Summary
AI-Generated Summary