ChatPaper.aiChatPaper

Repensando a Atenção: Explorando Redes Neurais Feed-Forward Rasas como uma Alternativa às Camadas de Atenção em Transformers

Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers

November 17, 2023
Autores: Vukasin Bozic, Danilo Dordervic, Daniele Coppola, Joseph Thommes
cs.AI

Resumo

Este trabalho apresenta uma análise da eficácia do uso de redes neurais feed-forward rasas padrão para imitar o comportamento do mecanismo de atenção no modelo Transformer original, uma arquitetura de ponta para tarefas de sequência para sequência. Substituímos elementos-chave do mecanismo de atenção no Transformer por redes feed-forward simples, treinadas usando os componentes originais por meio de destilação de conhecimento. Nossos experimentos, conduzidos no conjunto de dados IWSLT2017, revelam a capacidade desses "Transformers sem atenção" de rivalizar com o desempenho da arquitetura original. Através de estudos de ablação rigorosos e da experimentação com vários tipos e tamanhos de redes de substituição, oferecemos insights que apoiam a viabilidade de nossa abordagem. Isso não apenas esclarece a adaptabilidade das redes feed-forward rasas na emulação de mecanismos de atenção, mas também ressalta seu potencial para simplificar arquiteturas complexas em tarefas de sequência para sequência.
English
This work presents an analysis of the effectiveness of using standard shallow feed-forward networks to mimic the behavior of the attention mechanism in the original Transformer model, a state-of-the-art architecture for sequence-to-sequence tasks. We substitute key elements of the attention mechanism in the Transformer with simple feed-forward networks, trained using the original components via knowledge distillation. Our experiments, conducted on the IWSLT2017 dataset, reveal the capacity of these "attentionless Transformers" to rival the performance of the original architecture. Through rigorous ablation studies, and experimenting with various replacement network types and sizes, we offer insights that support the viability of our approach. This not only sheds light on the adaptability of shallow feed-forward networks in emulating attention mechanisms but also underscores their potential to streamline complex architectures for sequence-to-sequence tasks.
PDF261December 15, 2024