Les réseaux de neurones récurrents à portes découvrent l'attention.
Gated recurrent neural networks discover attention
September 4, 2023
Auteurs: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI
Résumé
Les récents développements architecturaux ont permis aux réseaux de neurones récurrents (RNN) d'atteindre, voire de surpasser, les performances des Transformers pour certaines tâches de modélisation de séquences. Ces RNN modernes présentent un motif de conception marquant : des couches récurrentes linéaires interconnectées par des chemins feedforward avec des portes multiplicatives. Nous montrons ici comment les RNN équipés de ces deux éléments de conception peuvent implémenter exactement l'auto-attention (linéaire), le principal bloc de construction des Transformers. En rétro-ingénierie d'un ensemble de RNN entraînés, nous constatons que la descente de gradient découvre en pratique notre construction. En particulier, nous examinons des RNN entraînés à résoudre des tâches simples d'apprentissage en contexte sur lesquelles les Transformers sont connus pour exceller, et nous trouvons que la descente de gradient instille dans nos RNN le même algorithme d'apprentissage en contexte basé sur l'attention utilisé par les Transformers. Nos résultats soulignent l'importance des interactions multiplicatives dans les réseaux de neurones et suggèrent que certains RNN pourraient implémenter de manière inattendue l'attention en arrière-plan.
English
Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.