ChatPaper.aiChatPaper

Superare il collo di bottiglia dell'attenzione

Breaking the Attention Bottleneck

June 16, 2024
Autori: Kalle Hilsenbek
cs.AI

Abstract

I trasformatori basati su attenzione sono diventati l'architettura standard in molti campi del deep learning, principalmente grazie alla loro capacità di modellare dipendenze a lungo raggio e gestire sequenze di input di lunghezza variabile. Tuttavia, il meccanismo di attenzione, con la sua complessità quadratica, rappresenta un significativo collo di bottiglia nell'architettura dei trasformatori. Questo algoritmo è unidirezionale solo nel decoder e converge verso un pattern statico nei modelli decoder-only sovra-parametrizzati. Affronto questo problema sviluppando una funzione generativa come sostituto dell'attenzione o dell'attivazione. Mantiene comunque il carattere auto-regressivo confrontando ogni token con quello precedente. Nel mio ambiente di test con nanoGPT, ciò produce una perdita inferiore pur avendo un modello più piccolo. La perdita diminuisce ulteriormente incorporando un vettore di contesto medio. Questo concetto di sostituzione dell'attenzione è distribuito sotto la licenza GNU AGPL v3 all'indirizzo https://gitlab.com/Bachstelze/causal_generation.
English
Attention-based transformers have become the standard architecture in many deep learning fields, primarily due to their ability to model long-range dependencies and handle variable-length input sequences. However, the attention mechanism with its quadratic complexity is a significant bottleneck in the transformer architecture. This algorithm is only uni-directional in the decoder and converges to a static pattern in over-parametrized decoder-only models. I address this issue by developing a generative function as attention or activation replacement. It still has the auto-regressive character by comparing each token with the previous one. In my test setting with nanoGPT this yields a smaller loss while having a smaller model. The loss further drops by incorporating an average context vector. This concept of attention replacement is distributed under the GNU AGPL v3 license at https://gitlab.com/Bachstelze/causal_generation.
PDF44February 8, 2026