Franchir le goulet d'étranglement de l'attention
Breaking the Attention Bottleneck
June 16, 2024
Auteurs: Kalle Hilsenbek
cs.AI
Résumé
Les transformeurs basés sur l'attention sont devenus l'architecture standard dans de nombreux domaines de l'apprentissage profond, principalement grâce à leur capacité à modéliser des dépendances à longue portée et à gérer des séquences d'entrée de longueur variable. Cependant, le mécanisme d'attention, avec sa complexité quadratique, constitue un goulot d'étranglement majeur dans l'architecture des transformeurs. Cet algorithme est uniquement unidirectionnel dans le décodeur et converge vers un motif statique dans les modèles sur-paramétrés ne comportant qu'un décodeur. Je traite ce problème en développant une fonction générative comme remplacement de l'attention ou de l'activation. Elle conserve un caractère auto-régressif en comparant chaque token avec le précédent. Dans mon environnement de test avec nanoGPT, cela entraîne une perte plus faible tout en utilisant un modèle plus petit. La perte diminue davantage en incorporant un vecteur de contexte moyen. Ce concept de remplacement de l'attention est distribué sous la licence GNU AGPL v3 à l'adresse suivante : https://gitlab.com/Bachstelze/causal_generation.
English
Attention-based transformers have become the standard architecture in many
deep learning fields, primarily due to their ability to model long-range
dependencies and handle variable-length input sequences. However, the attention
mechanism with its quadratic complexity is a significant bottleneck in the
transformer architecture. This algorithm is only uni-directional in the decoder
and converges to a static pattern in over-parametrized decoder-only models. I
address this issue by developing a generative function as attention or
activation replacement. It still has the auto-regressive character by comparing
each token with the previous one. In my test setting with nanoGPT this yields a
smaller loss while having a smaller model. The loss further drops by
incorporating an average context vector. This concept of attention replacement
is distributed under the GNU AGPL v3 license at
https://gitlab.com/Bachstelze/causal_generation.Summary
AI-Generated Summary