Один широкий прямой слой — это всё, что вам нужно.

Аннотация

Архитектура Transformer состоит из двух основных компонентов, не связанных с эмбеддингами: механизма внимания (Attention) и полносвязной сети (Feed Forward Network, FFN). Механизм внимания улавливает взаимозависимости между словами независимо от их позиции, в то время как FFN нелинейно преобразует каждый входной токен независимо. В данной работе мы исследуем роль FFN и обнаруживаем, что, несмотря на значительную долю параметров модели, она обладает высокой избыточностью. Конкретно, мы можем существенно сократить количество параметров с лишь незначительным снижением точности, удалив FFN в слоях декодера и используя единую FFN для всех слоев энкодера. В завершение мы масштабируем эту архитектуру до исходного размера, увеличивая скрытую размерность общей FFN, что приводит к значительному улучшению как точности, так и задержки по сравнению с оригинальной моделью Transformer Big.

English

The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model's parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big.

Один широкий прямой слой — это всё, что вам нужно.

One Wide Feedforward is All You Need

Аннотация

Support