Las redes neuronales recurrentes con compuertas descubren la atención.
Gated recurrent neural networks discover attention
September 4, 2023
Autores: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI
Resumen
Los recientes avances arquitectónicos han permitido que las redes neuronales recurrentes (RNN, por sus siglas en inglés) alcancen e incluso superen el rendimiento de los Transformers en ciertas tareas de modelado de secuencias. Estas RNN modernas presentan un patrón de diseño destacado: capas recurrentes lineales interconectadas mediante rutas de avance con compuertas multiplicativas. Aquí, demostramos cómo las RNN equipadas con estos dos elementos de diseño pueden implementar exactamente la autoatención (lineal), el bloque principal de los Transformers. Al realizar ingeniería inversa sobre un conjunto de RNN entrenadas, descubrimos que el descenso de gradiente, en la práctica, encuentra nuestra construcción. En particular, examinamos RNN entrenadas para resolver tareas simples de aprendizaje en contexto en las que los Transformers son conocidos por destacar, y encontramos que el descenso de gradiente instila en nuestras RNN el mismo algoritmo de aprendizaje en contexto basado en atención que utilizan los Transformers. Nuestros hallazgos resaltan la importancia de las interacciones multiplicativas en las redes neuronales y sugieren que ciertas RNN podrían estar implementando, de manera inesperada, mecanismos de atención en su funcionamiento interno.
English
Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.