ChatPaper.aiChatPaper

MSA: Attenzione Sparsa in Memoria per un'Efficiente Scalabilità End-to-End dei Modelli di Memoria fino a 100 Milioni di Token

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

March 6, 2026
Autori: Yu Chen, Runkai Chen, Sheng Yi, Xinda Zhao, Xiaohong Li, Jianjin Zhang, Jun Sun, Chuanrui Hu, Yunyun Han, Lidong Bing, Yafeng Deng, Tianqiao Chen
cs.AI

Abstract

La memoria a lungo termine è una pietra miliare dell'intelligenza umana. Consentire all'IA di elaborare informazioni su scala di una vita rimane un obiettivo di lunga data nel campo. A causa dei vincoli delle architetture di piena attenzione, la lunghezza effettiva del contesto dei grandi modelli linguistici (LLM) è tipicamente limitata a 1 milione di token. Gli approcci esistenti, come l'attenzione lineare ibrida, stati di memoria a dimensione fissa (ad esempio, RNN), e metodi di memorizzazione esterna come RAG o sistemi ad agente, tentano di estendere questo limite. Tuttavia, essi spesso soffrono di una grave degradazione della precisione e di una latenza in rapido aumento con la crescita del contesto, di un'incapacità di modificare dinamicamente il contenuto della memoria, o di una mancanza di ottimizzazione end-to-end. Questi colli di bottiglia ostacolano scenari complessi come la summarizzazione di grandi corpus, i Digital Twins e il ragionamento di agenti su lunga storia, limitando al contempo la capacità di memoria e rallentando l'inferenza. Presentiamo Memory Sparse Attention (MSA), un framework di modelli di memoria addestrabile end-to-end, efficiente e massicciamente scalabile. Attraverso innovazioni fondamentali che includono l'attenzione sparsa scalabile e il RoPE document-wise, MSA raggiunge una complessità lineare sia nell'addestramento che nell'inferenza, mantenendo un'eccezionale stabilità e mostrando un degrado inferiore al 9% quando si scala da 16K a 100M di token. Inoltre, la compressione della cache KV, combinata con Memory Parallel, consente l'inferenza su 100 milioni di token su 2 GPU A800. Proponiamo anche Memory Interleaving per facilitare ragionamenti multi-hop complessi su segmenti di memoria sparsi. MSA supera significativamente gli LLM all'avanguardia, i sistemi RAG più avanzati e i principali agenti di memoria nei benchmark di contesto lungo. Questi risultati dimostrano che, disaccoppiando la capacità di memoria dal ragionamento, MSA fornisce una base scalabile per dotare i modelli generici di una memoria intrinseca su scala di vita.
English
Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens. Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs, state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.
PDF342March 29, 2026