Eén brede feedforward is alles wat je nodig hebt
One Wide Feedforward is All You Need
September 4, 2023
Auteurs: Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
cs.AI
Samenvatting
De Transformer-architectuur heeft twee belangrijke niet-embedding-componenten: Attention en het Feed Forward Network (FFN). Attention legt onderlinge afhankelijkheden tussen woorden vast, ongeacht hun positie, terwijl het FFN elk invoertoken onafhankelijk niet-lineair transformeert. In dit werk onderzoeken we de rol van het FFN en ontdekken dat het, ondanks dat het een aanzienlijk deel van de parameters van het model inneemt, zeer redundant is. Concreet zijn we in staat om het aantal parameters aanzienlijk te verminderen met slechts een bescheiden daling in nauwkeurigheid door het FFN in de decoderlagen te verwijderen en één enkel FFN over de encoder te delen. Ten slotte schalen we deze architectuur terug naar de oorspronkelijke grootte door de verborgen dimensie van het gedeelde FFN te vergroten, wat aanzienlijke verbeteringen oplevert in zowel nauwkeurigheid als latentie ten opzichte van de oorspronkelijke Transformer Big.
English
The Transformer architecture has two main non-embedding components: Attention
and the Feed Forward Network (FFN). Attention captures interdependencies
between words regardless of their position, while the FFN non-linearly
transforms each input token independently. In this work we explore the role of
the FFN, and find that despite taking up a significant fraction of the model's
parameters, it is highly redundant. Concretely, we are able to substantially
reduce the number of parameters with only a modest drop in accuracy by removing
the FFN on the decoder layers and sharing a single FFN across the encoder.
Finally we scale this architecture back to its original size by increasing the
hidden dimension of the shared FFN, achieving substantial gains in both
accuracy and latency with respect to the original Transformer Big.