MSA: Atención Dispersa en Memoria para un Escalado Eficiente de Modelos de Memoria de Extremo a Extremo hasta 100 Millones de Tokens

Resumen

La memoria a largo plazo es un pilar fundamental de la inteligencia humana. Dotar a la IA de la capacidad de procesar información a escala vital sigue siendo un objetivo persistente en el campo. Debido a las limitaciones de las arquitecturas de atención completa, la longitud efectiva de contexto de los modelos de lenguaje grandes (LLMs) generalmente se restringe a 1 millón de tokens. Enfoques existentes, como la atención lineal híbrida, estados de memoria de tamaño fijo (por ejemplo, RNNs), y métodos de almacenamiento externo como RAG o sistemas de agentes, intentan extender este límite. Sin embargo, a menudo adolecen de una degradación severa de la precisión y una latencia que aumenta rápidamente con la longitud del contexto, una incapacidad para modificar dinámicamente el contenido de la memoria, o una falta de optimización integral (end-to-end). Estos cuellos de botella dificultan escenarios complejos como la summarización de grandes corpus, los Gemelos Digitales y el razonamiento de agentes con historiales largos, al mismo tiempo que limitan la capacidad de memoria y ralentizan la inferencia. Presentamos Memory Sparse Attention (MSA), un marco de modelo de memoria eficiente, masivamente escalable y entrenable de extremo a extremo. Mediante innovaciones clave que incluyen una atención dispersa escalable y RoPE a nivel de documento, MSA logra una complejidad lineal tanto en el entrenamiento como en la inferencia, manteniendo una estabilidad excepcional, con una degradación inferior al 9% al escalar de 16K a 100 millones de tokens. Además, la compresión de la caché KV, combinada con el Paralelismo de Memoria, permite una inferencia de 100 millones de tokens en 2 GPUs A800. También proponemos el Entrelazado de Memoria para facilitar razonamientos complejos de múltiples saltos a través de segmentos de memoria dispersos. MSA supera significativamente a los LLMs más avanzados, a los sistemas RAG de vanguardia y a los principales agentes de memoria en benchmarks de contexto largo. Estos resultados demuestran que, al desacoplar la capacidad de memoria del razonamiento, MSA proporciona una base escalable para dotar a los modelos de propósito general de una memoria intrínseca a escala vital.

English

Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens. Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs, state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.

MSA: Atención Dispersa en Memoria para un Escalado Eficiente de Modelos de Memoria de Extremo a Extremo hasta 100 Millones de Tokens

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Resumen

Support