Transformers Quantifiables : Éliminer les valeurs aberrantes en aidant les têtes d'attention à ne rien faire

Résumé

Les modèles Transformer ont été largement adoptés dans divers domaines au cours des dernières années, et en particulier les grands modèles de langage ont considérablement fait progresser le domaine de l'IA. En raison de leur taille, la capacité de ces réseaux a augmenté de manière spectaculaire, mais cela s'est fait au prix d'une augmentation significative des ressources de calcul nécessaires. La quantification est l'une des méthodes les plus efficaces pour réduire le temps de calcul et la consommation de mémoire des réseaux de neurones. Cependant, de nombreuses études ont montré que les modèles Transformer modernes ont tendance à apprendre des valeurs aberrantes fortes dans leurs activations, ce qui les rend difficiles à quantifier. Pour conserver des performances acceptables, la présence de ces valeurs aberrantes nécessite que les activations soient représentées avec une plus grande précision binaire, ou l'utilisation de formats numériques différents, d'un réglage fin supplémentaire, ou d'autres solutions de contournement. Nous montrons que ces fortes valeurs aberrantes sont liées à un comportement très spécifique des têtes d'attention qui tentent d'apprendre une opération "no-op" ou simplement une mise à jour partielle du résiduel. Pour obtenir les zéros exacts nécessaires dans la matrice d'attention pour une non-mise à jour, l'entrée de la fonction softmax est poussée à devenir de plus en plus grande pendant l'entraînement, provoquant des valeurs aberrantes dans d'autres parties du réseau. Sur la base de ces observations, nous proposons deux modifications simples (et indépendantes) du mécanisme d'attention - le softmax tronqué et l'attention à porte. Nous montrons empiriquement que les modèles pré-entraînés en utilisant nos méthodes apprennent des valeurs aberrantes significativement plus petites tout en maintenant, et parfois même en améliorant, les performances en virgule flottante. Cela nous permet de quantifier les Transformers en une quantification INT8 complète des activations sans effort supplémentaire. Nous démontrons l'efficacité de nos méthodes à la fois sur les modèles de langage (BERT, OPT) et sur les Transformers pour la vision.

English

Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers.

Transformers Quantifiables : Éliminer les valeurs aberrantes en aidant les têtes d'attention à ne rien faire

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Résumé

Support