MemMamba: Neubewertung von Speichermustern in Zustandsraummodellen
MemMamba: Rethinking Memory Patterns in State Space Model
September 28, 2025
papers.authors: Youjin Wang, Yangjingyi Chen, Jiahao Yan, Jiaxuan Lu, Xiao Sun
cs.AI
papers.abstract
Mit dem explosionsartigen Wachstum von Daten ist die Modellierung langer Sequenzen in Aufgaben wie der natürlichen Sprachverarbeitung und der Bioinformatik zunehmend wichtig geworden. Bestehende Methoden stehen jedoch vor inhärenten Kompromissen zwischen Effizienz und Speicherbedarf. Rekurrente neuronale Netze leiden unter dem Problem des verschwindenden und explodierenden Gradienten, was ihre Skalierbarkeit erschwert. Transformer können globale Abhängigkeiten modellieren, sind jedoch durch ihre quadratische Komplexität eingeschränkt. Kürzlich haben selektive Zustandsraummodelle wie Mamba hohe Effizienz mit O(n)-Zeit und O(1)-rekursiver Inferenz demonstriert, doch ihr Langzeitgedächtnis zerfällt exponentiell. In dieser Arbeit führen wir mathematische Ableitungen und informationstheoretische Analysen durch, um den Mechanismus des Gedächtniszerfalls von Mamba systematisch zu untersuchen und eine grundlegende Frage zu beantworten: Was ist die Natur des Langzeitgedächtnisses von Mamba und wie behält es Informationen? Um den Verlust von Schlüsselinformationen zu quantifizieren, führen wir horizontale-vertikale Gedächtnisfidelitätsmetriken ein, die den Abbau sowohl innerhalb als auch zwischen Schichten erfassen. Inspiriert davon, wie Menschen wichtige Informationen beim Lesen langer Dokumente destillieren und behalten, schlagen wir MemMamba vor, ein neuartiges Architekturframework, das einen Zustandszusammenfassungsmechanismus mit schicht- und tokenübergreifender Aufmerksamkeit integriert. Dies mildert das Vergessen über lange Distanzen, während die lineare Komplexität erhalten bleibt. MemMamba erzielt signifikante Verbesserungen gegenüber bestehenden Mamba-Varianten und Transformern auf Langsequenz-Benchmarks wie PG19 und Passkey Retrieval und bietet gleichzeitig eine 48%ige Beschleunigung der Inferenzeffizienz. Sowohl theoretische Analysen als auch empirische Ergebnisse zeigen, dass MemMamba einen Durchbruch im Komplexität-Speicher-Kompromiss erreicht und ein neues Paradigma für die Modellierung ultra-langer Sequenzen bietet.
English
With the explosive growth of data, long-sequence modeling has become
increasingly important in tasks such as natural language processing and
bioinformatics. However, existing methods face inherent trade-offs between
efficiency and memory. Recurrent neural networks suffer from gradient vanishing
and explosion, making them hard to scale. Transformers can model global
dependencies but are constrained by quadratic complexity. Recently, selective
state-space models such as Mamba have demonstrated high efficiency with O(n)
time and O(1) recurrent inference, yet their long-range memory decays
exponentially. In this work, we conduct mathematical derivations and
information-theoretic analysis to systematically uncover the memory decay
mechanism of Mamba, answering a fundamental question: what is the nature of
Mamba's long-range memory and how does it retain information? To quantify key
information loss, we further introduce horizontal-vertical memory fidelity
metrics that capture degradation both within and across layers. Inspired by how
humans distill and retain salient information when reading long documents, we
propose MemMamba, a novel architectural framework that integrates state
summarization mechanism together with cross-layer and cross-token attention,
which alleviates long-range forgetting while preserving linear complexity.
MemMamba achieves significant improvements over existing Mamba variants and
Transformers on long-sequence benchmarks such as PG19 and Passkey Retrieval,
while delivering a 48% speedup in inference efficiency. Both theoretical
analysis and empirical results demonstrate that MemMamba achieves a
breakthrough in the complexity-memory trade-off, offering a new paradigm for
ultra-long sequence modeling.