Vers une quantification post-entraînement de nouvelle génération pour les transformeurs à très grande échelle

papers.abstract

Face à la complexité croissante des modèles d'IA générative, la quantification post-entraînement (PTQ) s'est imposée comme une solution prometteuse pour déployer des modèles hyper-scalaires sur des appareils embarqués tels que les mobiles et les téléviseurs. Cependant, les schémas de PTQ existants consomment un temps et des ressources considérables, ce qui peut constituer un goulot d'étranglement dans des situations réelles où des mises à jour fréquentes du modèle et des réglages multiples d'hyperparamètres sont nécessaires. En tant qu'alternative économique, des schémas de PTQ en une seule étape ont été proposés. Néanmoins, leurs performances restent limitées car ils ne prennent pas en compte la dépendance inter-couches au sein du module d'attention, une caractéristique essentielle des Transformers. Dans cet article, nous proposons donc un nouvel algorithme de PTQ qui équilibre précision et efficacité. L'idée clé de l'algorithme proposé, appelé aespa, est d'effectuer la quantification couche par couche pour l'efficacité tout en tenant compte de la dépendance inter-couches pour préserver le score d'attention. À travers des expériences approfondies sur divers modèles de langage et une analyse de complexité, nous démontrons qu'aespa est à la fois précis et efficace pour quantifier les modèles Transformer.

English

With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile devices and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyper-parameter tunings are required. As a cost-effective alternative, one-shot PTQ schemes have been proposed. Still, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a very important feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while considering cross-layer dependency to preserve the attention score. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.

Vers une quantification post-entraînement de nouvelle génération pour les transformeurs à très grande échelle

Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

papers.abstract

Support