Ein breites Feedforward-Netzwerk ist alles, was Sie brauchen.
One Wide Feedforward is All You Need
September 4, 2023
Autoren: Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
cs.AI
Zusammenfassung
Die Transformer-Architektur besteht aus zwei Hauptkomponenten, die nicht zur Einbettung gehören: Attention und das Feed-Forward-Netzwerk (FFN). Attention erfasst Abhängigkeiten zwischen Wörtern unabhängig von ihrer Position, während das FFN jeden Eingabe-Token unabhängig nicht-linear transformiert. In dieser Arbeit untersuchen wir die Rolle des FFN und stellen fest, dass es trotz eines erheblichen Anteils an den Parametern des Modells stark redundant ist. Konkret können wir die Anzahl der Parameter erheblich reduzieren, indem wir das FFN in den Decoder-Schichten entfernen und ein einzelnes FFN über den Encoder hinweg teilen, wobei die Genauigkeit nur geringfügig abnimmt. Schließlich skalieren wir diese Architektur auf ihre ursprüngliche Größe zurück, indem wir die versteckte Dimension des gemeinsamen FFN erhöhen, was erhebliche Verbesserungen sowohl in der Genauigkeit als auch in der Latenz im Vergleich zum ursprünglichen Transformer Big erzielt.
English
The Transformer architecture has two main non-embedding components: Attention
and the Feed Forward Network (FFN). Attention captures interdependencies
between words regardless of their position, while the FFN non-linearly
transforms each input token independently. In this work we explore the role of
the FFN, and find that despite taking up a significant fraction of the model's
parameters, it is highly redundant. Concretely, we are able to substantially
reduce the number of parameters with only a modest drop in accuracy by removing
the FFN on the decoder layers and sharing a single FFN across the encoder.
Finally we scale this architecture back to its original size by increasing the
hidden dimension of the shared FFN, achieving substantial gains in both
accuracy and latency with respect to the original Transformer Big.