Rompiendo el cuello de botella de la atención
Breaking the Attention Bottleneck
June 16, 2024
Autores: Kalle Hilsenbek
cs.AI
Resumen
Los transformadores basados en atención se han convertido en la arquitectura estándar en muchos campos del aprendizaje profundo, principalmente debido a su capacidad para modelar dependencias de largo alcance y manejar secuencias de entrada de longitud variable. Sin embargo, el mecanismo de atención, con su complejidad cuadrática, representa un cuello de botella significativo en la arquitectura del transformador. Este algoritmo es unidireccional en el decodificador y converge a un patrón estático en modelos de solo decodificador sobreparametrizados. Abordo este problema desarrollando una función generativa como reemplazo de la atención o activación. Aún conserva el carácter autorregresivo al comparar cada token con el anterior. En mi configuración de pruebas con nanoGPT, esto resulta en una pérdida menor mientras se utiliza un modelo más pequeño. La pérdida disminuye aún más al incorporar un vector de contexto promedio. Este concepto de reemplazo de atención se distribuye bajo la licencia GNU AGPL v3 en https://gitlab.com/Bachstelze/causal_generation.
English
Attention-based transformers have become the standard architecture in many
deep learning fields, primarily due to their ability to model long-range
dependencies and handle variable-length input sequences. However, the attention
mechanism with its quadratic complexity is a significant bottleneck in the
transformer architecture. This algorithm is only uni-directional in the decoder
and converges to a static pattern in over-parametrized decoder-only models. I
address this issue by developing a generative function as attention or
activation replacement. It still has the auto-regressive character by comparing
each token with the previous one. In my test setting with nanoGPT this yields a
smaller loss while having a smaller model. The loss further drops by
incorporating an average context vector. This concept of attention replacement
is distributed under the GNU AGPL v3 license at
https://gitlab.com/Bachstelze/causal_generation.Summary
AI-Generated Summary