Eén brede feedforward is alles wat je nodig hebt

Samenvatting

De Transformer-architectuur heeft twee belangrijke niet-embedding-componenten: Attention en het Feed Forward Network (FFN). Attention legt onderlinge afhankelijkheden tussen woorden vast, ongeacht hun positie, terwijl het FFN elk invoertoken onafhankelijk niet-lineair transformeert. In dit werk onderzoeken we de rol van het FFN en ontdekken dat het, ondanks dat het een aanzienlijk deel van de parameters van het model inneemt, zeer redundant is. Concreet zijn we in staat om het aantal parameters aanzienlijk te verminderen met slechts een bescheiden daling in nauwkeurigheid door het FFN in de decoderlagen te verwijderen en één enkel FFN over de encoder te delen. Ten slotte schalen we deze architectuur terug naar de oorspronkelijke grootte door de verborgen dimensie van het gedeelde FFN te vergroten, wat aanzienlijke verbeteringen oplevert in zowel nauwkeurigheid als latentie ten opzichte van de oorspronkelijke Transformer Big.

English

The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model's parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big.

Eén brede feedforward is alles wat je nodig hebt

One Wide Feedforward is All You Need

Samenvatting

Support