Transformadores Quantizáveis: Removendo Outliers ao Fazer Cabeças de Atenção Não Fazer Nada

Resumo

Modelos Transformer têm sido amplamente adotados em diversos domínios nos últimos anos, e especialmente os grandes modelos de linguagem avançaram significativamente o campo da IA. Devido ao seu tamanho, a capacidade dessas redes aumentou tremendamente, mas isso veio ao custo de um aumento significativo na necessidade de computação. A quantização é uma das formas mais eficazes de reduzir o tempo computacional e o consumo de memória das redes neurais. Muitos estudos mostraram, no entanto, que os modelos Transformer modernos tendem a aprender outliers fortes em suas ativações, tornando-os difíceis de quantizar. Para manter um desempenho aceitável, a existência desses outliers exige que as ativações estejam em uma largura de bits maior ou o uso de diferentes formatos numéricos, ajustes finos adicionais ou outras soluções alternativas. Mostramos que outliers fortes estão relacionados a um comportamento muito específico das heads de atenção que tentam aprender uma operação "no-op" ou apenas uma atualização parcial do residual. Para alcançar os zeros exatos necessários na matriz de atenção para uma não-atualização, a entrada da softmax é empurrada para ser cada vez maior durante o treinamento, causando outliers em outras partes da rede. Com base nessas observações, propomos duas modificações simples (e independentes) ao mecanismo de atenção - softmax com corte e atenção com portão. Demonstramos empiricamente que modelos pré-treinados usando nossos métodos aprendem outliers significativamente menores enquanto mantêm e, às vezes, até melhoram o desempenho da tarefa em ponto flutuante. Isso nos permite quantizar Transformers para uma quantização completa INT8 das ativações sem nenhum esforço adicional. Demonstramos a eficácia de nossos métodos tanto em modelos de linguagem (BERT, OPT) quanto em Transformers de visão.

English

Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers.

Transformadores Quantizáveis: Removendo Outliers ao Fazer Cabeças de Atenção Não Fazer Nada

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Resumo

Support