Überwindung des Aufmerksamkeitsengpasses
Breaking the Attention Bottleneck
June 16, 2024
Autoren: Kalle Hilsenbek
cs.AI
Zusammenfassung
Aufmerksamkeitsbasierte Transformer sind zur Standardarchitektur in vielen Bereichen des Deep Learning geworden, hauptsächlich aufgrund ihrer Fähigkeit, langreichweitige Abhängigkeiten zu modellieren und Eingabesequenzen variabler Länge zu verarbeiten. Allerdings stellt der Aufmerksamkeitsmechanismus mit seiner quadratischen Komplexität einen signifikanten Engpass in der Transformerarchitektur dar. Dieser Algorithmus ist nur in der Decoder-Richtung unidirektional und konvergiert zu einem statischen Muster in überparametrisierten Modellen, die nur Decoder enthalten. Ich gehe dieses Problem an, indem ich eine generative Funktion als Ersatz für Aufmerksamkeit oder Aktivierung entwickle. Sie behält den autoregressiven Charakter bei, indem sie jedes Token mit dem vorherigen vergleicht. In meinem Testsetting mit nanoGPT führt dies zu einem geringeren Verlust bei einem kleineren Modell. Der Verlust sinkt weiter, wenn ein durchschnittlicher Kontextvektor eingebunden wird. Dieses Konzept des Aufmerksamkeitseratzes wird unter der GNU AGPL v3-Lizenz auf https://gitlab.com/Bachstelze/causal_generation veröffentlicht.
English
Attention-based transformers have become the standard architecture in many
deep learning fields, primarily due to their ability to model long-range
dependencies and handle variable-length input sequences. However, the attention
mechanism with its quadratic complexity is a significant bottleneck in the
transformer architecture. This algorithm is only uni-directional in the decoder
and converges to a static pattern in over-parametrized decoder-only models. I
address this issue by developing a generative function as attention or
activation replacement. It still has the auto-regressive character by comparing
each token with the previous one. In my test setting with nanoGPT this yields a
smaller loss while having a smaller model. The loss further drops by
incorporating an average context vector. This concept of attention replacement
is distributed under the GNU AGPL v3 license at
https://gitlab.com/Bachstelze/causal_generation.Summary
AI-Generated Summary