Гатерованные рекуррентные нейронные сети обнаруживают механизмы внимания.
Gated recurrent neural networks discover attention
September 4, 2023
Авторы: Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento
cs.AI
Аннотация
Последние архитектурные разработки позволили рекуррентным нейронным сетям (RNN) достичь и даже превзойти производительность трансформеров в определенных задачах моделирования последовательностей. Эти современные RNN характеризуются заметным паттерном проектирования: линейные рекуррентные слои, соединенные через прямые пути с мультипликативным управлением. В данной работе мы показываем, как RNN, оснащенные этими двумя элементами проектирования, могут точно реализовать (линейное) самовнимание — основной строительный блок трансформеров. Обратно инженерно анализируя набор обученных RNN, мы обнаруживаем, что градиентный спуск на практике находит нашу конструкцию. В частности, мы исследуем RNN, обученные решать простые задачи обучения в контексте, в которых трансформеры известны своим превосходством, и обнаруживаем, что градиентный спуск внедряет в наши RNN тот же алгоритм обучения в контексте на основе внимания, который используется трансформерами. Наши результаты подчеркивают важность мультипликативных взаимодействий в нейронных сетях и предполагают, что определенные RNN могут неожиданно реализовывать механизмы внимания "под капотом".
English
Recent architectural developments have enabled recurrent neural networks
(RNNs) to reach and even surpass the performance of Transformers on certain
sequence modeling tasks. These modern RNNs feature a prominent design pattern:
linear recurrent layers interconnected by feedforward paths with multiplicative
gating. Here, we show how RNNs equipped with these two design elements can
exactly implement (linear) self-attention, the main building block of
Transformers. By reverse-engineering a set of trained RNNs, we find that
gradient descent in practice discovers our construction. In particular, we
examine RNNs trained to solve simple in-context learning tasks on which
Transformers are known to excel and find that gradient descent instills in our
RNNs the same attention-based in-context learning algorithm used by
Transformers. Our findings highlight the importance of multiplicative
interactions in neural networks and suggest that certain RNNs might be
unexpectedly implementing attention under the hood.