Le reti neurali ricorrenti con gate scoprono l'attenzione
Gated recurrent neural networks discover attention
September 4, 2023
Autori: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI
Abstract
I recenti sviluppi architetturali hanno permesso alle reti neurali ricorrenti (RNN) di raggiungere e persino superare le prestazioni dei Transformer in determinati compiti di modellazione di sequenze. Queste RNN moderne presentano un modello di progettazione distintivo: strati ricorrenti lineari interconnessi da percorsi feedforward con gating moltiplicativo. In questo lavoro, dimostriamo come le RNN dotate di questi due elementi di progettazione possano implementare esattamente l'auto-attenzione (lineare), il principale componente costitutivo dei Transformer. Analizzando un insieme di RNN addestrate, scopriamo che la discesa del gradiente in pratica riscopre la nostra costruzione. In particolare, esaminiamo RNN addestrate per risolvere semplici compiti di apprendimento in contesto, in cui i Transformer sono noti per eccellere, e troviamo che la discesa del gradiente instilla nelle nostre RNN lo stesso algoritmo di apprendimento in contesto basato sull'attenzione utilizzato dai Transformer. I nostri risultati evidenziano l'importanza delle interazioni moltiplicative nelle reti neurali e suggeriscono che alcune RNN potrebbero implementare inaspettatamente meccanismi di attenzione al loro interno.
English
Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.