ChatPaper.aiChatPaper

Redes neurais recorrentes com portas descobrem a atenção.

Gated recurrent neural networks discover attention

September 4, 2023
Autores: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI

Resumo

Desenvolvimentos arquitetônicos recentes permitiram que redes neurais recorrentes (RNNs) alcançassem e até superassem o desempenho dos Transformers em certas tarefas de modelagem de sequências. Essas RNNs modernas apresentam um padrão de design proeminente: camadas recorrentes lineares interconectadas por caminhos feedforward com portas multiplicativas. Aqui, mostramos como RNNs equipadas com esses dois elementos de design podem implementar exatamente a autoatenção (linear), o principal bloco de construção dos Transformers. Ao fazer engenharia reversa de um conjunto de RNNs treinadas, descobrimos que o gradiente descendente, na prática, encontra nossa construção. Em particular, examinamos RNNs treinadas para resolver tarefas simples de aprendizado em contexto, nas quais os Transformers são conhecidos por se destacar, e descobrimos que o gradiente descendente instila em nossas RNNs o mesmo algoritmo de aprendizado em contexto baseado em atenção usado pelos Transformers. Nossas descobertas destacam a importância das interações multiplicativas em redes neurais e sugerem que certas RNNs podem estar, inesperadamente, implementando atenção sob o capô.
English
Recent architectural developments have enabled recurrent neural networks (RNNs) to reach and even surpass the performance of Transformers on certain sequence modeling tasks. These modern RNNs feature a prominent design pattern: linear recurrent layers interconnected by feedforward paths with multiplicative gating. Here, we show how RNNs equipped with these two design elements can exactly implement (linear) self-attention, the main building block of Transformers. By reverse-engineering a set of trained RNNs, we find that gradient descent in practice discovers our construction. In particular, we examine RNNs trained to solve simple in-context learning tasks on which Transformers are known to excel and find that gradient descent instills in our RNNs the same attention-based in-context learning algorithm used by Transformers. Our findings highlight the importance of multiplicative interactions in neural networks and suggest that certain RNNs might be unexpectedly implementing attention under the hood.
PDF100February 8, 2026