Un Solo Ampio Feedforward è Tutto Ciò di Cui Hai Bisogno
One Wide Feedforward is All You Need
September 4, 2023
Autori: Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
cs.AI
Abstract
L'architettura Transformer è composta da due principali componenti non di embedding: l'Attention e la Feed Forward Network (FFN). L'Attention cattura le interdipendenze tra le parole indipendentemente dalla loro posizione, mentre la FFN trasforma in modo non lineare ciascun token di input in maniera indipendente. In questo lavoro esploriamo il ruolo della FFN e scopriamo che, nonostante occupi una frazione significativa dei parametri del modello, è altamente ridondante. Nello specifico, siamo in grado di ridurre sostanzialmente il numero di parametri con solo un modesto calo di accuratezza rimuovendo la FFN dai livelli del decoder e condividendo una singola FFN attraverso l'encoder. Infine, ridimensioniamo questa architettura alla sua dimensione originale aumentando la dimensione nascosta della FFN condivisa, ottenendo miglioramenti sostanziali sia in termini di accuratezza che di latenza rispetto al Transformer Big originale.
English
The Transformer architecture has two main non-embedding components: Attention
and the Feed Forward Network (FFN). Attention captures interdependencies
between words regardless of their position, while the FFN non-linearly
transforms each input token independently. In this work we explore the role of
the FFN, and find that despite taking up a significant fraction of the model's
parameters, it is highly redundant. Concretely, we are able to substantially
reduce the number of parameters with only a modest drop in accuracy by removing
the FFN on the decoder layers and sharing a single FFN across the encoder.
Finally we scale this architecture back to its original size by increasing the
hidden dimension of the shared FFN, achieving substantial gains in both
accuracy and latency with respect to the original Transformer Big.