Neubewertung der Aufmerksamkeit: Untersuchung flacher Feed-Forward-Netzwerke als Alternative zu Aufmerksamkeitsschichten in Transformern
Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers
November 17, 2023
Autoren: Vukasin Bozic, Danilo Dordervic, Daniele Coppola, Joseph Thommes
cs.AI
Zusammenfassung
Diese Arbeit präsentiert eine Analyse der Effektivität von standardmäßigen flachen Feed-Forward-Netzwerken, um das Verhalten des Aufmerksamkeitsmechanismus im ursprünglichen Transformer-Modell, einer state-of-the-art Architektur für Sequenz-zu-Sequenz-Aufgaben, nachzuahmen. Wir ersetzen Schlüsselelemente des Aufmerksamkeitsmechanismus im Transformer durch einfache Feed-Forward-Netzwerke, die mithilfe der ursprünglichen Komponenten durch Wissensdestillation trainiert werden. Unsere Experimente, die auf dem IWSLT2017-Datensatz durchgeführt wurden, zeigen die Fähigkeit dieser „aufmerksamkeitslosen Transformer“, die Leistung der ursprünglichen Architektur zu erreichen. Durch rigorose Ablationsstudien und Experimente mit verschiedenen Ersatznetzwerktypen und -größen bieten wir Einblicke, die die Machbarkeit unseres Ansatzes unterstützen. Dies beleuchtet nicht nur die Anpassungsfähigkeit flacher Feed-Forward-Netzwerke bei der Nachahmung von Aufmerksamkeitsmechanismen, sondern unterstreicht auch ihr Potenzial, komplexe Architekturen für Sequenz-zu-Sequenz-Aufgaben zu vereinfachen.
English
This work presents an analysis of the effectiveness of using standard shallow
feed-forward networks to mimic the behavior of the attention mechanism in the
original Transformer model, a state-of-the-art architecture for
sequence-to-sequence tasks. We substitute key elements of the attention
mechanism in the Transformer with simple feed-forward networks, trained using
the original components via knowledge distillation. Our experiments, conducted
on the IWSLT2017 dataset, reveal the capacity of these "attentionless
Transformers" to rival the performance of the original architecture. Through
rigorous ablation studies, and experimenting with various replacement network
types and sizes, we offer insights that support the viability of our approach.
This not only sheds light on the adaptability of shallow feed-forward networks
in emulating attention mechanisms but also underscores their potential to
streamline complex architectures for sequence-to-sequence tasks.