Переосмысление внимания: исследование неглубоких прямых нейронных сетей как альтернативы слоям внимания в трансформерах
Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers
November 17, 2023
Авторы: Vukasin Bozic, Danilo Dordervic, Daniele Coppola, Joseph Thommes
cs.AI
Аннотация
В данной работе представлен анализ эффективности использования стандартных неглубоких прямопропагающих сетей для имитации поведения механизма внимания в оригинальной модели Transformer, которая является передовой архитектурой для задач последовательностного преобразования. Мы заменяем ключевые элементы механизма внимания в Transformer простыми прямопропагающими сетями, обученными с использованием оригинальных компонентов посредством дистилляции знаний. Наши эксперименты, проведенные на наборе данных IWSLT2017, демонстрируют способность таких "Transformer без внимания" конкурировать по производительности с оригинальной архитектурой. Благодаря тщательным исследованиям методом абляции и экспериментам с различными типами и размерами заменяющих сетей, мы предлагаем выводы, подтверждающие жизнеспособность нашего подхода. Это не только проливает свет на адаптивность неглубоких прямопропагающих сетей в эмуляции механизмов внимания, но также подчеркивает их потенциал для упрощения сложных архитектур в задачах последовательностного преобразования.
English
This work presents an analysis of the effectiveness of using standard shallow
feed-forward networks to mimic the behavior of the attention mechanism in the
original Transformer model, a state-of-the-art architecture for
sequence-to-sequence tasks. We substitute key elements of the attention
mechanism in the Transformer with simple feed-forward networks, trained using
the original components via knowledge distillation. Our experiments, conducted
on the IWSLT2017 dataset, reveal the capacity of these "attentionless
Transformers" to rival the performance of the original architecture. Through
rigorous ablation studies, and experimenting with various replacement network
types and sizes, we offer insights that support the viability of our approach.
This not only sheds light on the adaptability of shallow feed-forward networks
in emulating attention mechanisms but also underscores their potential to
streamline complex architectures for sequence-to-sequence tasks.