ChatPaper.aiChatPaper

Memória Associativa com Portas: Uma Arquitetura Paralela O(N) para Modelagem Eficiente de Sequências

Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling

August 30, 2025
Autores: Rishiraj Acharya
cs.AI

Resumo

A arquitetura Transformer, sustentada pelo mecanismo de autoatenção, tornou-se o padrão de fato para tarefas de modelagem de sequências. No entanto, sua primitiva computacional central escala quadraticamente com o comprimento da sequência (O(N^2)), criando um gargalo significativo para o processamento de contextos longos. Neste artigo, propomos a rede Gated Associative Memory (GAM), uma arquitetura nova e totalmente paralela para modelagem de sequências que exibe complexidade linear (O(N)) em relação ao comprimento da sequência. O bloco GAM substitui a camada de autoatenção por dois caminhos paralelos: uma convolução causal para capturar eficientemente o contexto local dependente de posição e um mecanismo de recuperação de memória associativa paralela para modelar padrões globais baseados em conteúdo. Esses caminhos são dinamicamente fundidos usando um mecanismo de portão, permitindo que o modelo combine de forma flexível informações locais e globais para cada token. Implementamos o GAM do zero e realizamos uma análise comparativa rigorosa contra um modelo Transformer padrão e uma linha de base moderna de tempo linear (Mamba) no benchmark WikiText-2, bem como contra o Transformer no conjunto de dados TinyStories. Nossos experimentos demonstram que o GAM é consistentemente mais rápido, superando ambas as linhas de base em velocidade de treinamento, e alcança uma perplexidade de validação final superior ou competitiva em todos os conjuntos de dados, estabelecendo-o como uma alternativa promissora e eficiente para a modelagem de sequências.
English
The Transformer architecture, underpinned by the self-attention mechanism, has become the de facto standard for sequence modeling tasks. However, its core computational primitive scales quadratically with sequence length (O(N^2)), creating a significant bottleneck for processing long contexts. In this paper, we propose the Gated Associative Memory (GAM) network, a novel, fully parallel architecture for sequence modeling that exhibits linear complexity (O(N)) with respect to sequence length. The GAM block replaces the self-attention layer with two parallel pathways: a causal convolution to efficiently capture local, position-dependent context, and a parallel associative memory retrieval mechanism to model global, content-based patterns. These pathways are dynamically fused using a gating mechanism, allowing the model to flexibly combine local and global information for each token. We implement GAM from scratch and conduct a rigorous comparative analysis against a standard Transformer model and a modern linear-time baseline (Mamba) on the WikiText-2 benchmark, as well as against the Transformer on the TinyStories dataset. Our experiments demonstrate that GAM is consistently faster, outperforming both baselines on training speed, and achieves a superior or competitive final validation perplexity across all datasets, establishing it as a promising and efficient alternative for sequence modeling.
PDF415September 3, 2025