MSA : Attention parcimonieuse en mémoire pour une mise à l'échelle efficace des modèles de mémoire de bout en bout jusqu'à 100 millions de tokens

Résumé

La mémoire à long terme est une pierre angulaire de l'intelligence humaine. Permettre à l'IA de traiter des informations à l'échelle d'une vie reste une quête de longue date dans le domaine. En raison des contraintes des architectures à attention complète, la longueur de contexte effective des grands modèles de langage (LLM) est généralement limitée à 1 million de tokens. Les approches existantes, telles que l'attention linéaire hybride, les états de mémoire de taille fixe (par exemple, les RNN), et les méthodes de stockage externe comme le RAG ou les systèmes d'agents, tentent de repousser cette limite. Cependant, elles souffrent souvent d'une dégradation sévère de la précision et d'une latence qui augmente rapidement avec la croissance du contexte, d'une incapacité à modifier dynamiquement le contenu de la mémoire, ou d'un manque d'optimisation de bout en bout. Ces goulots d'étranglement entravent des scénarios complexes comme la synthèse de grands corpus, les jumeaux numériques et le raisonnement d'agents sur de longues histoires, tout en limitant la capacité mémoire et en ralentissant l'inférence. Nous présentons Memory Sparse Attention (MSA), un cadre de modèle de mémoire efficace, massivement scalable et entraînablable de bout en bout. Grâce à des innovations clés, incluant une attention clairsemable scalable et le RoPE documentaire, MSA atteint une complexité linéaire tant à l'entraînement qu'à l'inférence tout en maintenant une stabilité exceptionnelle, avec une dégradation inférieure à 9 % lors d'un passage de 16K à 100 millions de tokens. De plus, la compression du cache KV, combinée au parallélisme mémoire, permet une inférence sur 100 millions de tokens avec seulement 2 GPU A800. Nous proposons aussi l'entrelacement mémoire pour faciliter un raisonnement complexe multi-sauts à travers des segments de mémoire dispersés. MSA surpasse significativement les LLM de pointe, les systèmes RAG les plus avancés et les meilleurs agents mémoire dans des benchmarks à long contexte. Ces résultats démontrent qu'en dissociant la capacité mémoire du raisonnement, MSA fournit une base scalable pour doter les modèles généraux d'une mémoire intrinsèque à l'échelle d'une vie.

English

Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens. Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs, state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.

MSA : Attention parcimonieuse en mémoire pour une mise à l'échelle efficace des modèles de mémoire de bout en bout jusqu'à 100 millions de tokens

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Résumé

Support