MSA: Memory Sparse Attention für effiziente Skalierung von End-to-End-Gedächtnismodellen auf 100 Millionen Tokens

Zusammenfassung

Langzeitgedächtnis ist ein Grundpfeiler der menschlichen Intelligenz. KI-Systeme mit der Fähigkeit auszustatten, lebenslang skalierende Informationen zu verarbeiten, bleibt ein langjähriges Ziel des Forschungsfeldes. Aufgrund der Beschränkungen von Full-Attention-Architekturen ist die effektive Kontextlänge großer Sprachmodellle (LLMs) typischerweise auf 1M Tokens begrenzt. Bestehende Ansätze wie hybride lineare Attention, festgroße Gedächtniszustände (z.B. RNNs) und externe Speichermethoden wie RAG oder Agentensysteme versuchen, diese Grenze zu erweitern. Allerdings leiden sie oft unter erheblichem Präzisionsverlust und schnell ansteigender Latenz bei wachsender Kontextlänge, der Unfähigkeit, Gedächtnisinhalte dynamisch zu modifizieren, oder einem Mangel an End-to-End-Optimierung. Diese Engpässe behindern komplexe Szenarien wie die Zusammenfassung großer Korpora, Digital Twins und Agentenreasoning mit langem Verlauf, während sie gleichzeitig die Gedächtniskapazität begrenzen und die Inferenz verlangsamen. Wir stellen Memory Sparse Attention (MSA) vor, ein End-to-End trainierbares, effizientes und massiv skalierbares Gedächtnismodell-Framework. Durch Kerninnovationen, einschließlich skalierbarer sparse Attention und dokumentenweiser RoPE, erreicht MSA lineare Komplexität sowohl im Training als auch in der Inferenz bei gleichzeitig außerordentlicher Stabilität – mit weniger als 9% Leistungsabfall bei der Skalierung von 16K auf 100M Tokens. Darüber hinaus ermöglicht KV-Cache-Kompression in Kombination mit Memory Parallel eine 100M-Token-Inferenz auf 2xA800 GPUs. Wir schlagen zudem Memory Interleaving vor, um komplexes Multi-Hop-Reasoning über verstreute Gedächtnissegmente hinweg zu erleichtern. MSA übertrifft frontier LLMs, state-of-the-art RAG-Systeme und führende Gedächtnisagenten in Long-Context-Benchmarks signifikant. Diese Ergebnisse demonstrieren, dass MSA durch die Entkopplung von Gedächtniskapazität und Reasoning eine skalierbare Grundlage bietet, um universelle Modelle mit intrinsichem, lebenslang skalierendem Gedächtnis auszustatten.

English

Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens. Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs, state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.

MSA: Memory Sparse Attention für effiziente Skalierung von End-to-End-Gedächtnismodellen auf 100 Millionen Tokens

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Zusammenfassung

Support