Один широкий прямой слой — это всё, что вам нужно.
One Wide Feedforward is All You Need
September 4, 2023
Авторы: Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
cs.AI
Аннотация
Архитектура Transformer состоит из двух основных компонентов, не связанных с эмбеддингами: механизма внимания (Attention) и полносвязной сети (Feed Forward Network, FFN). Механизм внимания улавливает взаимозависимости между словами независимо от их позиции, в то время как FFN нелинейно преобразует каждый входной токен независимо. В данной работе мы исследуем роль FFN и обнаруживаем, что, несмотря на значительную долю параметров модели, она обладает высокой избыточностью. Конкретно, мы можем существенно сократить количество параметров с лишь незначительным снижением точности, удалив FFN в слоях декодера и используя единую FFN для всех слоев энкодера. В завершение мы масштабируем эту архитектуру до исходного размера, увеличивая скрытую размерность общей FFN, что приводит к значительному улучшению как точности, так и задержки по сравнению с оригинальной моделью Transformer Big.
English
The Transformer architecture has two main non-embedding components: Attention
and the Feed Forward Network (FFN). Attention captures interdependencies
between words regardless of their position, while the FFN non-linearly
transforms each input token independently. In this work we explore the role of
the FFN, and find that despite taking up a significant fraction of the model's
parameters, it is highly redundant. Concretely, we are able to substantially
reduce the number of parameters with only a modest drop in accuracy by removing
the FFN on the decoder layers and sharing a single FFN across the encoder.
Finally we scale this architecture back to its original size by increasing the
hidden dimension of the shared FFN, achieving substantial gains in both
accuracy and latency with respect to the original Transformer Big.