Kwantiseerbare Transformers: Uitschieters verwijderen door aandachtskoppen te laten nietsdoen

Samenvatting

Transformer-modellen zijn de afgelopen jaren op grote schaal geadopteerd in verschillende domeinen, en met name grote taalmodelen hebben het vakgebied van AI aanzienlijk vooruitgebracht. Door hun omvang is de capaciteit van deze netwerken enorm toegenomen, maar dit ging gepaard met een aanzienlijke toename in benodigde rekenkracht. Kwantisatie is een van de meest effectieve manieren om de rekentijd en het geheugengebruik van neurale netwerken te verminderen. Veel studies hebben echter aangetoond dat moderne transformer-modellen de neiging hebben sterke uitschieters in hun activaties te leren, wat het kwantiseren ervan bemoeilijkt. Om acceptabele prestaties te behouden, vereist het bestaan van deze uitschieters dat activaties in een hogere bitbreedte worden gebruikt, of het gebruik van verschillende numerieke formaten, extra fine-tuning, of andere oplossingen. Wij tonen aan dat sterke uitschieters gerelateerd zijn aan zeer specifiek gedrag van aandachtskoppen die proberen een "no-op" of slechts een gedeeltelijke update van de restwaarde te leren. Om de exacte nullen die nodig zijn in de aandachtmatrix voor een geen-update te bereiken, wordt de invoer van de softmax tijdens de training steeds groter gemaakt, wat uitschieters in andere delen van het netwerk veroorzaakt. Op basis van deze observaties stellen we twee eenvoudige (onafhankelijke) aanpassingen voor aan het aandachtmechanisme - geknipte softmax en gegate aandacht. We tonen empirisch aan dat modellen die met onze methoden zijn voorgetraind, aanzienlijk kleinere uitschieters leren terwijl ze de prestaties met zwevendekommagetallen behouden en soms zelfs verbeteren. Dit stelt ons in staat transformers te kwantiseren naar volledige INT8-kwantisatie van de activaties zonder enige extra inspanning. We demonstreren de effectiviteit van onze methoden op zowel taalmodelen (BERT, OPT) als vision transformers.

English

Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers.

Kwantiseerbare Transformers: Uitschieters verwijderen door aandachtskoppen te laten nietsdoen

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Samenvatting

Support