ChatPaper.aiChatPaper

Внимание: Линейные трансформеры с косинусным вниманием

Cottention: Linear Transformers With Cosine Attention

September 27, 2024
Авторы: Gabriel Mongaras, Trevor Dohm, Eric C. Larson
cs.AI

Аннотация

Механизмы внимания, особенно механизм внимания softmax, сыграли ключевую роль в успехе моделей на основе трансформера, таких как GPT. Однако квадратичная сложность памяти механизма внимания softmax относительно длины последовательности представляет существенные вызовы для обработки более длинных последовательностей. Мы представляем Cottention, новый механизм внимания, который заменяет операцию softmax на косинусное сходство. Используя свойства косинусного сходства и переставляя уравнение внимания, Cottention достигает линейной сложности памяти относительно длины последовательности, что делает его более эффективным с точки зрения памяти, чем механизм внимания softmax. Мы показываем, что Cottention может быть переформулирован как рекуррентная нейронная сеть (RNN) с конечным скрытым состоянием, позволяющим использовать постоянный объем памяти во время вывода. Мы оцениваем Cottention на задачах как двунаправленного BERT, так и причинного GPT, демонстрируя сравнимую производительность с механизмом внимания softmax при значительном снижении требований к памяти. Для обеспечения эффективных вычислений мы разрабатываем специальное ядро CUDA для Cottention. Наши результаты показывают, что Cottention является многообещающей альтернативой механизму внимания softmax, позволяя обрабатывать более длинные последовательности без ущерба производительности благодаря линейной сложности памяти и способности поддерживать постоянный объем памяти во время вывода.
English
Attention mechanisms, particularly softmax attention, have been instrumental in the success of transformer-based models such as GPT. However, the quadratic memory complexity of softmax attention with respect to sequence length poses significant challenges for processing longer sequences. We introduce Cottention, a novel attention mechanism that replaces the softmax operation with cosine similarity. By leveraging the properties of cosine similarity and rearranging the attention equation, Cottention achieves native linear memory complexity with respect to sequence length, making it inherently more memory-efficient than softmax attention. We demonstrate that Cottention can be reformulated as a recurrent neural network (RNN) with a finite hidden state, allowing for constant memory usage during inference. We evaluate Cottention on both the bidirectional BERT and causal GPT tasks, demonstrating comparable performance to softmax attention while significantly reducing memory requirements. To ensure efficient computation, we develop a custom CUDA kernel for Cottention. Our results show that Cottention is a promising alternative to softmax attention, enabling the processing of longer sequences without sacrificing performance, due to its native linear memory complexity and ability to maintain a constant memory footprint during inference.

Summary

AI-Generated Summary

PDF175November 13, 2024