MSA: Atenção Esparsa de Memória para Escalonamento Eficiente de Modelos de Memória de Ponta a Ponta até 100 Milhões de Tokens
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
March 6, 2026
Autores: Yu Chen, Runkai Chen, Sheng Yi, Xinda Zhao, Xiaohong Li, Jianjin Zhang, Jun Sun, Chuanrui Hu, Yunyun Han, Lidong Bing, Yafeng Deng, Tianqiao Chen
cs.AI
Resumo
A memória de longo prazo é uma pedra angular da inteligência humana. Permitir que a IA processe informações em escala vitalícia continua sendo um objetivo de longa data na área. Devido às restrições das arquiteturas de atenção completa, o comprimento efetivo de contexto dos grandes modelos de linguagem (LLMs) é tipicamente limitado a 1 milhão de tokens. Abordagens existentes, como atenção linear híbrida, estados de memória de tamanho fixo (por exemplo, RNNs) e métodos de armazenamento externo como RAG ou sistemas de agentes, tentam estender esse limite. No entanto, elas frequentemente sofrem com severa degradação de precisão e latência rapidamente crescente à medida que o contexto se expande, incapacidade de modificar dinamicamente o conteúdo da memória ou falta de otimização de ponta a ponta. Esses gargalos impedem cenários complexos como sumarização de grandes corpus, Gêmeos Digitais e raciocínio de agentes com histórico extenso, ao mesmo tempo que limitam a capacidade de memória e retardam a inferência. Apresentamos a Memória de Atenção Esparsa (MSA), uma estrutura de modelo de memória treinável de ponta a ponta, eficiente e massivamente escalável. Por meio de inovações centrais, incluindo atenção esparsa escalável e RoPE por documento, a MSA alcança complexidade linear tanto no treinamento quanto na inferência, mantendo estabilidade excepcional, exibindo menos de 9% de degradação ao escalar de 16K para 100M de tokens. Além disso, a compressão do cache KV, combinada com o Paralelismo de Memória, permite inferência de 100M de tokens em 2x GPUs A800. Também propomos o Entrelaçamento de Memória para facilitar raciocínios complexos de múltiplos saltos entre segmentos de memória dispersos. A MSA supera significativamente LLMs de fronteira, sistemas RAG state-of-the-art e principais agentes de memória em benchmarks de contexto longo. Esses resultados demonstram que, ao desacoplar a capacidade de memória do raciocínio, a MSA fornece uma base escalável para dotar modelos de propósito geral com memória intrínseca em escala vitalícia.
English
Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in
the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically
limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage
methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly
increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These
bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory
capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory
model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both
training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens.
Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory
Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs,
state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory
capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.