ChatPaper.aiChatPaper

Memoria Asociativa con Compuertas: Una Arquitectura Paralela O(N) para el Modelado Eficiente de Secuencias

Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling

August 30, 2025
Autores: Rishiraj Acharya
cs.AI

Resumen

La arquitectura Transformer, sustentada por el mecanismo de autoatención, se ha convertido en el estándar de facto para tareas de modelado de secuencias. Sin embargo, su primitiva computacional central escala cuadráticamente con la longitud de la secuencia (O(N^2)), lo que crea un cuello de botella significativo para procesar contextos largos. En este artículo, proponemos la red de Memoria Asociativa con Compuertas (GAM, por sus siglas en inglés), una arquitectura novedosa y completamente paralela para el modelado de secuencias que exhibe una complejidad lineal (O(N)) con respecto a la longitud de la secuencia. El bloque GAM reemplaza la capa de autoatención con dos rutas paralelas: una convolución causal para capturar eficientemente el contexto local dependiente de la posición, y un mecanismo de recuperación de memoria asociativa paralela para modelar patrones globales basados en contenido. Estas rutas se fusionan dinámicamente mediante un mecanismo de compuertas, permitiendo que el modelo combine de manera flexible información local y global para cada token. Implementamos GAM desde cero y realizamos un análisis comparativo riguroso contra un modelo Transformer estándar y una línea de base moderna de tiempo lineal (Mamba) en el benchmark WikiText-2, así como contra el Transformer en el conjunto de datos TinyStories. Nuestros experimentos demuestran que GAM es consistentemente más rápido, superando a ambas líneas de base en velocidad de entrenamiento, y logra una perplejidad de validación final superior o competitiva en todos los conjuntos de datos, estableciéndola como una alternativa prometedora y eficiente para el modelado de secuencias.
English
The Transformer architecture, underpinned by the self-attention mechanism, has become the de facto standard for sequence modeling tasks. However, its core computational primitive scales quadratically with sequence length (O(N^2)), creating a significant bottleneck for processing long contexts. In this paper, we propose the Gated Associative Memory (GAM) network, a novel, fully parallel architecture for sequence modeling that exhibits linear complexity (O(N)) with respect to sequence length. The GAM block replaces the self-attention layer with two parallel pathways: a causal convolution to efficiently capture local, position-dependent context, and a parallel associative memory retrieval mechanism to model global, content-based patterns. These pathways are dynamically fused using a gating mechanism, allowing the model to flexibly combine local and global information for each token. We implement GAM from scratch and conduct a rigorous comparative analysis against a standard Transformer model and a modern linear-time baseline (Mamba) on the WikiText-2 benchmark, as well as against the Transformer on the TinyStories dataset. Our experiments demonstrate that GAM is consistently faster, outperforming both baselines on training speed, and achieves a superior or competitive final validation perplexity across all datasets, establishing it as a promising and efficient alternative for sequence modeling.
PDF324September 3, 2025