ChatPaper.aiChatPaper

Quantisierbare Transformer: Entfernung von Ausreißern durch Unterstützung von Aufmerksamkeitsköpfen Tu nichts

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

June 22, 2023
Autoren: Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
cs.AI

Zusammenfassung

Transformer-Modelle wurden in den letzten Jahren in verschiedenen Bereichen weit verbreitet eingesetzt, und insbesondere große Sprachmodelle haben das Feld der KI erheblich vorangetrieben. Aufgrund ihrer Größe hat die Fähigkeit dieser Netzwerke enorm zugenommen, was jedoch mit einem erheblichen Anstieg des benötigten Rechenaufwands einherging. Quantisierung ist eine der effektivsten Methoden, um die Rechenzeit und den Speicherverbrauch von neuronalen Netzwerken zu reduzieren. Viele Studien haben jedoch gezeigt, dass moderne Transformer-Modelle dazu neigen, starke Ausreißer in ihren Aktivierungen zu lernen, was ihre Quantisierung erschwert. Um eine akzeptable Leistung zu erhalten, erfordert das Vorhandensein dieser Ausreißer, dass Aktivierungen in höherer Bitbreite vorliegen oder dass unterschiedliche numerische Formate, zusätzliches Fine-Tuning oder andere Workarounds verwendet werden. Wir zeigen, dass starke Ausreißer mit einem sehr spezifischen Verhalten von Attention-Heads zusammenhängen, die versuchen, eine „No-Op“-Operation oder nur eine teilweise Aktualisierung des Residuums zu lernen. Um die exakten Nullen zu erreichen, die in der Attention-Matrix für eine Nicht-Aktualisierung benötigt werden, wird die Eingabe der Softmax während des Trainings immer größer, was Ausreißer in anderen Teilen des Netzwerks verursacht. Basierend auf diesen Beobachtungen schlagen wir zwei einfache (unabhängige) Modifikationen des Attention-Mechanismus vor – die „clipped softmax“ und die „gated attention“. Wir zeigen empirisch, dass Modelle, die mit unseren Methoden vortrainiert wurden, signifikant kleinere Ausreißer lernen, während sie die Gleitkomma-Leistung beibehalten und manchmal sogar verbessern. Dies ermöglicht es uns, Transformer-Modelle ohne zusätzlichen Aufwand auf eine vollständige INT8-Quantisierung der Aktivierungen zu quantisieren. Wir demonstrieren die Wirksamkeit unserer Methoden sowohl an Sprachmodellen (BERT, OPT) als auch an Vision-Transformern.
English
Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers.
PDF120December 15, 2024