L'hippocampe artificiel : quelle distance nous sépare-t-il de la mémoire humaine ?
The AI Hippocampus: How Far are We From Human Memory?
January 14, 2026
papers.authors: Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu, Quansen Wang, Xiaobo Wang, Shuyi Zhang, Junzhe Shen, Qing Li, Siyuan Qi, Yitao Liang, Di He, Zilong Zheng, Song-Chun Zhu
cs.AI
papers.abstract
La mémoire joue un rôle fondamental dans l'amélioration du raisonnement, de l'adaptabilité et de la fidélité contextuelle des modèles de langage de grande taille (LLM) et des LLM multimodaux (MLLM) modernes. Alors que ces modèles passent de prédicteurs statiques à des systèmes interactifs capables d'apprentissage continu et d'inférence personnalisée, l'intégration de mécanismes de mémoire est devenue un thème central dans leur évolution architecturale et fonctionnelle. Cette étude présente une synthèse complète et structurée de la mémoire dans les LLM et les MLLM, organisant la littérature selon une taxonomie cohérente comprenant les paradigmes de mémoire implicite, explicite et agentielle. Plus précisément, l'étude délimite trois cadres mémoriels principaux. La mémoire implicite désigne les connaissances intégrées dans les paramètres internes des transformeurs pré-entraînés, englobant leur capacité de mémorisation, de récupération associative et de raisonnement contextuel. Des travaux récents ont exploré des méthodes pour interpréter, manipuler et reconfigurer cette mémoire latente. La mémoire explicite implique des composants externes de stockage et de récupération conçus pour enrichir les sorties du modèle avec des représentations de connaissances dynamiques et interrogeables, telles que des corpus textuels, des vecteurs denses et des structures basées sur des graphes, permettant ainsi une interaction évolutive et actualisable avec les sources d'information. La mémoire agentielle introduit des structures mémorielles persistantes et temporellement étendues au sein d'agents autonomes, facilitant la planification à long terme, l'auto-cohérence et les comportements collaboratifs dans les systèmes multi-agents, avec une pertinence pour l'IA incarnée et interactive. Au-delà du texte, l'étude examine l'intégration de la mémoire dans des contextes multimodaux, où la cohérence entre les modalités visuelles, linguistiques, auditives et d'action est essentielle. Les avancées architecturales majeures, les tâches de référence et les défis ouverts sont discutés, y compris les questions liées à la capacité mémoire, à l'alignement, à la cohérence factuelle et à l'interopérabilité entre systèmes.
English
Memory plays a foundational role in augmenting the reasoning, adaptability, and contextual fidelity of modern Large Language Models and Multi-Modal LLMs. As these models transition from static predictors to interactive systems capable of continual learning and personalized inference, the incorporation of memory mechanisms has emerged as a central theme in their architectural and functional evolution. This survey presents a comprehensive and structured synthesis of memory in LLMs and MLLMs, organizing the literature into a cohesive taxonomy comprising implicit, explicit, and agentic memory paradigms. Specifically, the survey delineates three primary memory frameworks. Implicit memory refers to the knowledge embedded within the internal parameters of pre-trained transformers, encompassing their capacity for memorization, associative retrieval, and contextual reasoning. Recent work has explored methods to interpret, manipulate, and reconfigure this latent memory. Explicit memory involves external storage and retrieval components designed to augment model outputs with dynamic, queryable knowledge representations, such as textual corpora, dense vectors, and graph-based structures, thereby enabling scalable and updatable interaction with information sources. Agentic memory introduces persistent, temporally extended memory structures within autonomous agents, facilitating long-term planning, self-consistency, and collaborative behavior in multi-agent systems, with relevance to embodied and interactive AI. Extending beyond text, the survey examines the integration of memory within multi-modal settings, where coherence across vision, language, audio, and action modalities is essential. Key architectural advances, benchmark tasks, and open challenges are discussed, including issues related to memory capacity, alignment, factual consistency, and cross-system interoperability.