ChatPaper.aiChatPaper

Gegate recurrente neurale netwerken ontdekken aandacht.

Gated recurrent neural networks discover attention

September 4, 2023
Auteurs: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI

Samenvatting

Recente architectonische ontwikkelingen hebben recurrent neural networks (RNN's) in staat gesteld om de prestaties van Transformers te evenaren of zelfs te overtreffen bij bepaalde sequentiemodelleringstaken. Deze moderne RNN's vertonen een opvallend ontwerppatroon: lineaire recurrent lagen die onderling verbonden zijn door feedforward-paden met multiplicatieve gating. Hier laten we zien hoe RNN's die zijn uitgerust met deze twee ontwerpelementen exact (lineaire) self-attention kunnen implementeren, het belangrijkste bouwblok van Transformers. Door een set getrainde RNN's te reverse-engineeren, ontdekken we dat gradient descent in de praktijk onze constructie vindt. In het bijzonder onderzoeken we RNN's die zijn getraind om eenvoudige in-context leertaken op te lossen, waarvan bekend is dat Transformers hierin uitblinken, en we constateren dat gradient descent in onze RNN's hetzelfde op aandacht gebaseerde in-context leeralgoritme implementeert dat door Transformers wordt gebruikt. Onze bevindingen benadrukken het belang van multiplicatieve interacties in neurale netwerken en suggereren dat bepaalde RNN's mogelijk onverwacht aandacht implementeren onder de motorkap.
English
Recent architectural developments have enabled recurrent neural networks (RNNs) to reach and even surpass the performance of Transformers on certain sequence modeling tasks. These modern RNNs feature a prominent design pattern: linear recurrent layers interconnected by feedforward paths with multiplicative gating. Here, we show how RNNs equipped with these two design elements can exactly implement (linear) self-attention, the main building block of Transformers. By reverse-engineering a set of trained RNNs, we find that gradient descent in practice discovers our construction. In particular, we examine RNNs trained to solve simple in-context learning tasks on which Transformers are known to excel and find that gradient descent instills in our RNNs the same attention-based in-context learning algorithm used by Transformers. Our findings highlight the importance of multiplicative interactions in neural networks and suggest that certain RNNs might be unexpectedly implementing attention under the hood.
PDF100February 8, 2026