Gated Associative Memory: Eine parallele O(N)-Architektur für effiziente Sequenzmodellierung
Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling
August 30, 2025
papers.authors: Rishiraj Acharya
cs.AI
papers.abstract
Die Transformer-Architektur, die auf dem Selbstaufmerksamkeitsmechanismus basiert, hat sich als De-facto-Standard für Sequenzmodellierungsaufgaben etabliert. Ihr zentrales Berechnungsprimitiv skaliert jedoch quadratisch mit der Sequenzlänge (O(N^2)), was einen erheblichen Engpass bei der Verarbeitung langer Kontexte darstellt. In diesem Artikel schlagen wir das Gated Associative Memory (GAM)-Netzwerk vor, eine neuartige, vollständig parallele Architektur für die Sequenzmodellierung, die eine lineare Komplexität (O(N)) in Bezug auf die Sequenzlänge aufweist. Der GAM-Block ersetzt die Selbstaufmerksamkeitsschicht durch zwei parallele Pfade: eine kausale Faltung, um lokalen, positionsabhängigen Kontext effizient zu erfassen, und einen parallelen assoziativen Speichermechanismus, um globale, inhaltsbasierte Muster zu modellieren. Diese Pfade werden dynamisch durch einen Gating-Mechanismus fusioniert, wodurch das Modell in der Lage ist, lokale und globale Informationen für jedes Token flexibel zu kombinieren. Wir implementieren GAM von Grund auf und führen eine umfassende vergleichende Analyse gegen ein Standard-Transformer-Modell und einen modernen linearen Baseline (Mamba) auf dem WikiText-2-Benchmark sowie gegen den Transformer auf dem TinyStories-Datensatz durch. Unsere Experimente zeigen, dass GAM durchweg schneller ist, beide Baselines in Bezug auf die Trainingsgeschwindigkeit übertrifft und eine überlegene oder wettbewerbsfähige finale Validierungsperplexität über alle Datensätze hinweg erreicht, was es als vielversprechende und effiziente Alternative für die Sequenzmodellierung etabliert.
English
The Transformer architecture, underpinned by the self-attention mechanism,
has become the de facto standard for sequence modeling tasks. However, its core
computational primitive scales quadratically with sequence length (O(N^2)),
creating a significant bottleneck for processing long contexts. In this paper,
we propose the Gated Associative Memory (GAM) network, a novel, fully parallel
architecture for sequence modeling that exhibits linear complexity (O(N)) with
respect to sequence length. The GAM block replaces the self-attention layer
with two parallel pathways: a causal convolution to efficiently capture local,
position-dependent context, and a parallel associative memory retrieval
mechanism to model global, content-based patterns. These pathways are
dynamically fused using a gating mechanism, allowing the model to flexibly
combine local and global information for each token. We implement GAM from
scratch and conduct a rigorous comparative analysis against a standard
Transformer model and a modern linear-time baseline (Mamba) on the WikiText-2
benchmark, as well as against the Transformer on the TinyStories dataset. Our
experiments demonstrate that GAM is consistently faster, outperforming both
baselines on training speed, and achieves a superior or competitive final
validation perplexity across all datasets, establishing it as a promising and
efficient alternative for sequence modeling.