Heroverdenken van aandacht: Onderzoek naar ondiepe feed-forward neurale netwerken als alternatief voor aandachtslagen in Transformers
Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers
November 17, 2023
Auteurs: Vukasin Bozic, Danilo Dordervic, Daniele Coppola, Joseph Thommes
cs.AI
Samenvatting
Dit werk presenteert een analyse van de effectiviteit van het gebruik van standaard ondiepe feed-forward netwerken om het gedrag van het aandachtmechanisme in het originele Transformer-model na te bootsen, een state-of-the-art architectuur voor sequence-to-sequence taken. We vervangen belangrijke elementen van het aandachtmechanisme in de Transformer door eenvoudige feed-forward netwerken, getraind met behulp van de originele componenten via kennisdistillatie. Onze experimenten, uitgevoerd op de IWSLT2017 dataset, onthullen het vermogen van deze "aandachtloze Transformers" om de prestaties van de originele architectuur te evenaren. Door middel van grondige ablatiestudies en het experimenteren met verschillende typen en groottes van vervangende netwerken, bieden we inzichten die de haalbaarheid van onze aanpak ondersteunen. Dit werpt niet alleen licht op de aanpasbaarheid van ondiepe feed-forward netwerken in het nabootsen van aandachtmechanismen, maar benadrukt ook hun potentieel om complexe architecturen voor sequence-to-sequence taken te stroomlijnen.
English
This work presents an analysis of the effectiveness of using standard shallow
feed-forward networks to mimic the behavior of the attention mechanism in the
original Transformer model, a state-of-the-art architecture for
sequence-to-sequence tasks. We substitute key elements of the attention
mechanism in the Transformer with simple feed-forward networks, trained using
the original components via knowledge distillation. Our experiments, conducted
on the IWSLT2017 dataset, reveal the capacity of these "attentionless
Transformers" to rival the performance of the original architecture. Through
rigorous ablation studies, and experimenting with various replacement network
types and sizes, we offer insights that support the viability of our approach.
This not only sheds light on the adaptability of shallow feed-forward networks
in emulating attention mechanisms but also underscores their potential to
streamline complex architectures for sequence-to-sequence tasks.