ChatPaper.aiChatPaper

TransformerFAM: A atenção por feedback é a memória de trabalho

TransformerFAM: Feedback attention is working memory

April 14, 2024
Autores: Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
cs.AI

Resumo

Embora os Transformers tenham revolucionado o aprendizado profundo, sua complexidade quadrática de atenção limita sua capacidade de processar entradas infinitamente longas. Propomos o Feedback Attention Memory (FAM), uma nova arquitetura Transformer que utiliza um loop de feedback para permitir que a rede atenda às suas próprias representações latentes. Esse design promove o surgimento de uma memória de trabalho dentro do Transformer, permitindo que ele processe sequências indefinidamente longas. O TransformerFAM não requer pesos adicionais, possibilitando uma integração perfeita com modelos pré-treinados. Nossos experimentos mostram que o TransformerFAM melhora significativamente o desempenho do Transformer em tarefas de contexto longo em vários tamanhos de modelo (1B, 8B e 24B). Esses resultados demonstram o potencial de capacitar Modelos de Linguagem de Grande Escala (LLMs) a processar sequências de comprimento ilimitado.
English
While Transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose Feedback Attention Memory (FAM), a novel Transformer architecture that leverages a feedback loop to enable the network to attend to its own latent representations. This design fosters the emergence of working memory within the Transformer, allowing it to process indefinitely long sequences. TransformerFAM requires no additional weights, enabling seamless integration with pre-trained models. Our experiments show that TransformerFAM significantly improves Transformer performance on long-context tasks across various model sizes (1B, 8B, and 24B). These results showcase the potential to empower Large Language Models (LLMs) to process sequences of unlimited length.
PDF430December 15, 2024