Gated rekurrente neuronale Netze entdecken Aufmerksamkeit.
Gated recurrent neural networks discover attention
September 4, 2023
Autoren: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI
Zusammenfassung
Jüngste architektonische Entwicklungen haben es rekurrenten neuronalen Netzen (RNNs) ermöglicht, die Leistung von Transformern bei bestimmten Sequenzmodellierungsaufgaben zu erreichen oder sogar zu übertreffen. Diese modernen RNNs weisen ein markantes Designmuster auf: lineare rekurrente Schichten, die durch Feedforward-Pfade mit multiplikativer Gating-Funktion verbunden sind. Hier zeigen wir, wie RNNs, die mit diesen beiden Designelementen ausgestattet sind, exakt (lineare) Selbstaufmerksamkeit implementieren können, den Hauptbaustein von Transformern. Durch die Reverse-Engineering-Analyse einer Reihe von trainierten RNNs stellen wir fest, dass der Gradientenabstieg in der Praxis unsere Konstruktion entdeckt. Insbesondere untersuchen wir RNNs, die darauf trainiert wurden, einfache In-Context-Learning-Aufgaben zu lösen, bei denen bekannt ist, dass Transformer hervorragende Leistungen erbringen, und finden, dass der Gradientenabstieg in unseren RNNs denselben auf Aufmerksamkeit basierenden In-Context-Learning-Algorithmus verankert, der von Transformern verwendet wird. Unsere Ergebnisse unterstreichen die Bedeutung multiplikativer Interaktionen in neuronalen Netzen und legen nahe, dass bestimmte RNNs möglicherweise unerwarteterweise Aufmerksamkeit im Hintergrund implementieren.
English
Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.