Gated Associative Memory: Eine parallele O(N)-Architektur für effiziente Sequenzmodellierung

papers.abstract

Die Transformer-Architektur, die auf dem Selbstaufmerksamkeitsmechanismus basiert, hat sich als De-facto-Standard für Sequenzmodellierungsaufgaben etabliert. Ihr zentrales Berechnungsprimitiv skaliert jedoch quadratisch mit der Sequenzlänge (O(N^2)), was einen erheblichen Engpass bei der Verarbeitung langer Kontexte darstellt. In diesem Artikel schlagen wir das Gated Associative Memory (GAM)-Netzwerk vor, eine neuartige, vollständig parallele Architektur für die Sequenzmodellierung, die eine lineare Komplexität (O(N)) in Bezug auf die Sequenzlänge aufweist. Der GAM-Block ersetzt die Selbstaufmerksamkeitsschicht durch zwei parallele Pfade: eine kausale Faltung, um lokalen, positionsabhängigen Kontext effizient zu erfassen, und einen parallelen assoziativen Speichermechanismus, um globale, inhaltsbasierte Muster zu modellieren. Diese Pfade werden dynamisch durch einen Gating-Mechanismus fusioniert, wodurch das Modell in der Lage ist, lokale und globale Informationen für jedes Token flexibel zu kombinieren. Wir implementieren GAM von Grund auf und führen eine umfassende vergleichende Analyse gegen ein Standard-Transformer-Modell und einen modernen linearen Baseline (Mamba) auf dem WikiText-2-Benchmark sowie gegen den Transformer auf dem TinyStories-Datensatz durch. Unsere Experimente zeigen, dass GAM durchweg schneller ist, beide Baselines in Bezug auf die Trainingsgeschwindigkeit übertrifft und eine überlegene oder wettbewerbsfähige finale Validierungsperplexität über alle Datensätze hinweg erreicht, was es als vielversprechende und effiziente Alternative für die Sequenzmodellierung etabliert.

English

The Transformer architecture, underpinned by the self-attention mechanism, has become the de facto standard for sequence modeling tasks. However, its core computational primitive scales quadratically with sequence length (O(N^2)), creating a significant bottleneck for processing long contexts. In this paper, we propose the Gated Associative Memory (GAM) network, a novel, fully parallel architecture for sequence modeling that exhibits linear complexity (O(N)) with respect to sequence length. The GAM block replaces the self-attention layer with two parallel pathways: a causal convolution to efficiently capture local, position-dependent context, and a parallel associative memory retrieval mechanism to model global, content-based patterns. These pathways are dynamically fused using a gating mechanism, allowing the model to flexibly combine local and global information for each token. We implement GAM from scratch and conduct a rigorous comparative analysis against a standard Transformer model and a modern linear-time baseline (Mamba) on the WikiText-2 benchmark, as well as against the Transformer on the TinyStories dataset. Our experiments demonstrate that GAM is consistently faster, outperforming both baselines on training speed, and achieves a superior or competitive final validation perplexity across all datasets, establishing it as a promising and efficient alternative for sequence modeling.

Gated Associative Memory: Eine parallele O(N)-Architektur für effiziente Sequenzmodellierung

Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling

papers.abstract

Support