Redes neurais recorrentes com portas descobrem a atenção.
Gated recurrent neural networks discover attention
September 4, 2023
Autores: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI
Resumo
Desenvolvimentos arquitetônicos recentes permitiram que redes neurais recorrentes (RNNs) alcançassem e até superassem o desempenho dos Transformers em certas tarefas de modelagem de sequências. Essas RNNs modernas apresentam um padrão de design proeminente: camadas recorrentes lineares interconectadas por caminhos feedforward com portas multiplicativas. Aqui, mostramos como RNNs equipadas com esses dois elementos de design podem implementar exatamente a autoatenção (linear), o principal bloco de construção dos Transformers. Ao fazer engenharia reversa de um conjunto de RNNs treinadas, descobrimos que o gradiente descendente, na prática, encontra nossa construção. Em particular, examinamos RNNs treinadas para resolver tarefas simples de aprendizado em contexto, nas quais os Transformers são conhecidos por se destacar, e descobrimos que o gradiente descendente instila em nossas RNNs o mesmo algoritmo de aprendizado em contexto baseado em atenção usado pelos Transformers. Nossas descobertas destacam a importância das interações multiplicativas em redes neurais e sugerem que certas RNNs podem estar, inesperadamente, implementando atenção sob o capô.
English
Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.