MSA: Memory Sparse Attention für effiziente Skalierung von End-to-End-Gedächtnismodellen auf 100 Millionen Tokens
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
March 6, 2026
Autoren: Yu Chen, Runkai Chen, Sheng Yi, Xinda Zhao, Xiaohong Li, Jianjin Zhang, Jun Sun, Chuanrui Hu, Yunyun Han, Lidong Bing, Yafeng Deng, Tianqiao Chen
cs.AI
Zusammenfassung
Langzeitgedächtnis ist ein Grundpfeiler der menschlichen Intelligenz. KI-Systeme mit der Fähigkeit auszustatten, lebenslang skalierende Informationen zu verarbeiten, bleibt ein langjähriges Ziel des Forschungsfeldes. Aufgrund der Beschränkungen von Full-Attention-Architekturen ist die effektive Kontextlänge großer Sprachmodellle (LLMs) typischerweise auf 1M Tokens begrenzt. Bestehende Ansätze wie hybride lineare Attention, festgroße Gedächtniszustände (z.B. RNNs) und externe Speichermethoden wie RAG oder Agentensysteme versuchen, diese Grenze zu erweitern. Allerdings leiden sie oft unter erheblichem Präzisionsverlust und schnell ansteigender Latenz bei wachsender Kontextlänge, der Unfähigkeit, Gedächtnisinhalte dynamisch zu modifizieren, oder einem Mangel an End-to-End-Optimierung. Diese Engpässe behindern komplexe Szenarien wie die Zusammenfassung großer Korpora, Digital Twins und Agentenreasoning mit langem Verlauf, während sie gleichzeitig die Gedächtniskapazität begrenzen und die Inferenz verlangsamen. Wir stellen Memory Sparse Attention (MSA) vor, ein End-to-End trainierbares, effizientes und massiv skalierbares Gedächtnismodell-Framework. Durch Kerninnovationen, einschließlich skalierbarer sparse Attention und dokumentenweiser RoPE, erreicht MSA lineare Komplexität sowohl im Training als auch in der Inferenz bei gleichzeitig außerordentlicher Stabilität – mit weniger als 9% Leistungsabfall bei der Skalierung von 16K auf 100M Tokens. Darüber hinaus ermöglicht KV-Cache-Kompression in Kombination mit Memory Parallel eine 100M-Token-Inferenz auf 2xA800 GPUs. Wir schlagen zudem Memory Interleaving vor, um komplexes Multi-Hop-Reasoning über verstreute Gedächtnissegmente hinweg zu erleichtern. MSA übertrifft frontier LLMs, state-of-the-art RAG-Systeme und führende Gedächtnisagenten in Long-Context-Benchmarks signifikant. Diese Ergebnisse demonstrieren, dass MSA durch die Entkopplung von Gedächtniskapazität und Reasoning eine skalierbare Grundlage bietet, um universelle Modelle mit intrinsichem, lebenslang skalierendem Gedächtnis auszustatten.
English
Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in
the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically
limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage
methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly
increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These
bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory
capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory
model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both
training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens.
Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory
Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs,
state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory
capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.