Transformers Quantifiables : Éliminer les valeurs aberrantes en aidant les têtes d'attention à ne rien faire
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing
June 22, 2023
Auteurs: Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
cs.AI
Résumé
Les modèles Transformer ont été largement adoptés dans divers domaines au cours des dernières années, et en particulier les grands modèles de langage ont considérablement fait progresser le domaine de l'IA. En raison de leur taille, la capacité de ces réseaux a augmenté de manière spectaculaire, mais cela s'est fait au prix d'une augmentation significative des ressources de calcul nécessaires. La quantification est l'une des méthodes les plus efficaces pour réduire le temps de calcul et la consommation de mémoire des réseaux de neurones. Cependant, de nombreuses études ont montré que les modèles Transformer modernes ont tendance à apprendre des valeurs aberrantes fortes dans leurs activations, ce qui les rend difficiles à quantifier. Pour conserver des performances acceptables, la présence de ces valeurs aberrantes nécessite que les activations soient représentées avec une plus grande précision binaire, ou l'utilisation de formats numériques différents, d'un réglage fin supplémentaire, ou d'autres solutions de contournement. Nous montrons que ces fortes valeurs aberrantes sont liées à un comportement très spécifique des têtes d'attention qui tentent d'apprendre une opération "no-op" ou simplement une mise à jour partielle du résiduel. Pour obtenir les zéros exacts nécessaires dans la matrice d'attention pour une non-mise à jour, l'entrée de la fonction softmax est poussée à devenir de plus en plus grande pendant l'entraînement, provoquant des valeurs aberrantes dans d'autres parties du réseau. Sur la base de ces observations, nous proposons deux modifications simples (et indépendantes) du mécanisme d'attention - le softmax tronqué et l'attention à porte. Nous montrons empiriquement que les modèles pré-entraînés en utilisant nos méthodes apprennent des valeurs aberrantes significativement plus petites tout en maintenant, et parfois même en améliorant, les performances en virgule flottante. Cela nous permet de quantifier les Transformers en une quantification INT8 complète des activations sans effort supplémentaire. Nous démontrons l'efficacité de nos méthodes à la fois sur les modèles de langage (BERT, OPT) et sur les Transformers pour la vision.
English
Transformer models have been widely adopted in various domains over the last
years, and especially large language models have advanced the field of AI
significantly. Due to their size, the capability of these networks has
increased tremendously, but this has come at the cost of a significant increase
in necessary compute. Quantization is one of the most effective ways to reduce
the computational time and memory consumption of neural networks. Many studies
have shown, however, that modern transformer models tend to learn strong
outliers in their activations, making them difficult to quantize. To retain
acceptable performance, the existence of these outliers requires activations to
be in higher bitwidth or the use of different numeric formats, extra
fine-tuning, or other workarounds. We show that strong outliers are related to
very specific behavior of attention heads that try to learn a "no-op" or just a
partial update of the residual. To achieve the exact zeros needed in the
attention matrix for a no-update, the input to the softmax is pushed to be
larger and larger during training, causing outliers in other parts of the
network. Based on these observations, we propose two simple (independent)
modifications to the attention mechanism - clipped softmax and gated attention.
We empirically show that models pre-trained using our methods learn
significantly smaller outliers while maintaining and sometimes even improving
the floating-point task performance. This enables us to quantize transformers
to full INT8 quantization of the activations without any additional effort. We
demonstrate the effectiveness of our methods on both language models (BERT,
OPT) and vision transformers.