Ein breites Feedforward-Netzwerk ist alles, was Sie brauchen.

papers.abstract

Die Transformer-Architektur besteht aus zwei Hauptkomponenten, die nicht zur Einbettung gehören: Attention und das Feed-Forward-Netzwerk (FFN). Attention erfasst Abhängigkeiten zwischen Wörtern unabhängig von ihrer Position, während das FFN jeden Eingabe-Token unabhängig nicht-linear transformiert. In dieser Arbeit untersuchen wir die Rolle des FFN und stellen fest, dass es trotz eines erheblichen Anteils an den Parametern des Modells stark redundant ist. Konkret können wir die Anzahl der Parameter erheblich reduzieren, indem wir das FFN in den Decoder-Schichten entfernen und ein einzelnes FFN über den Encoder hinweg teilen, wobei die Genauigkeit nur geringfügig abnimmt. Schließlich skalieren wir diese Architektur auf ihre ursprüngliche Größe zurück, indem wir die versteckte Dimension des gemeinsamen FFN erhöhen, was erhebliche Verbesserungen sowohl in der Genauigkeit als auch in der Latenz im Vergleich zum ursprünglichen Transformer Big erzielt.

English

The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model's parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big.

Ein breites Feedforward-Netzwerk ist alles, was Sie brauchen.

One Wide Feedforward is All You Need

papers.abstract

Support