Anatomie de la mémoire agentique : taxonomie et analyse empirique des évaluations et limitations systémiques

Résumé

Les systèmes de mémoire agentielle permettent aux agents basés sur des grands modèles de langage (LLM) de maintenir un état au cours d'interactions longues, supportant ainsi un raisonnement à long terme et une personnalisation au-delà des fenêtres de contexte fixes. Malgré un développement architectural rapide, les fondements empiriques de ces systèmes restent fragiles : les benchmarks existants sont souvent sous-dimensionnés, les métriques d'évaluation sont mal alignées avec l'utilité sémantique, les performances varient significativement selon les modèles de base, et les coûts au niveau système sont fréquemment négligés. Cette étude présente une analyse structurée de la mémoire agentielle sous les angles architecturaux et systémiques. Nous introduisons d'abord une taxonomie concise des systèmes MAG basée sur quatre structures de mémoire. Ensuite, nous analysons les points problématiques principaux limitant les systèmes actuels, incluant les effets de saturation des benchmarks, la validité des métriques et la sensibilité des juges, la précision dépendante du modèle de base, ainsi que les surcharges de latence et de débit introduites par la maintenance de la mémoire. En reliant la structure mémoire aux limitations empiriques, cette étude clarifie pourquoi les systèmes de mémoire agentielle actuels performent souvent en deçà de leur potentiel théorique et esquisse des pistes pour une évaluation plus fiable et une conception de systèmes plus évolutive.

English

Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.

Anatomie de la mémoire agentique : taxonomie et analyse empirique des évaluations et limitations systémiques

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Résumé

Support