ChatPaper.aiChatPaper

Quebrando o Gargalo da Atenção

Breaking the Attention Bottleneck

June 16, 2024
Autores: Kalle Hilsenbek
cs.AI

Resumo

Transformers baseados em atenção tornaram-se a arquitetura padrão em muitos campos de aprendizado profundo, principalmente devido à sua capacidade de modelar dependências de longo alcance e lidar com sequências de entrada de comprimento variável. No entanto, o mecanismo de atenção, com sua complexidade quadrática, é um gargalo significativo na arquitetura do transformer. Esse algoritmo é unidirecional no decodificador e converge para um padrão estático em modelos apenas de decodificação superparametrizados. Abordo essa questão desenvolvendo uma função generativa como substituição de atenção ou ativação. Ela ainda mantém o caráter autorregressivo ao comparar cada token com o anterior. Em meu cenário de teste com o nanoGPT, isso resulta em uma perda menor enquanto utiliza um modelo mais compacto. A perda diminui ainda mais ao incorporar um vetor de contexto médio. Esse conceito de substituição de atenção é distribuído sob a licença GNU AGPL v3 em https://gitlab.com/Bachstelze/causal_generation.
English
Attention-based transformers have become the standard architecture in many deep learning fields, primarily due to their ability to model long-range dependencies and handle variable-length input sequences. However, the attention mechanism with its quadratic complexity is a significant bottleneck in the transformer architecture. This algorithm is only uni-directional in the decoder and converges to a static pattern in over-parametrized decoder-only models. I address this issue by developing a generative function as attention or activation replacement. It still has the auto-regressive character by comparing each token with the previous one. In my test setting with nanoGPT this yields a smaller loss while having a smaller model. The loss further drops by incorporating an average context vector. This concept of attention replacement is distributed under the GNU AGPL v3 license at https://gitlab.com/Bachstelze/causal_generation.
PDF44December 6, 2024