L'Ippocampo dell'IA: Quanto Siamo Lontani dalla Memoria Umana?
The AI Hippocampus: How Far are We From Human Memory?
January 14, 2026
Autori: Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu, Quansen Wang, Xiaobo Wang, Shuyi Zhang, Junzhe Shen, Qing Li, Siyuan Qi, Yitao Liang, Di He, Zilong Zheng, Song-Chun Zhu
cs.AI
Abstract
La memoria svolge un ruolo fondamentale nel potenziare il ragionamento, l'adattabilità e la fedeltà contestuale dei moderni Large Language Model e Multi-Modal LLM. Mentre questi modelli evolvono da predittori statici a sistemi interattivi capaci di apprendimento continuo e inferenza personalizzata, l'incorporazione di meccanismi di memoria è emersa come tema centrale nella loro evoluzione architetturale e funzionale. Questa rassegna presenta una sintesi completa e strutturata della memoria negli LLM e MLLM, organizzando la letteratura in una tassonomia coerente che comprende paradigmi di memoria implicita, esplicita e agenziale. Nello specifico, la rassegna delinea tre principali framework mnemonici. La memoria implicita si riferisce alla conoscenza incorporata nei parametri interni dei transformer pre-addestrati, comprendendo la loro capacità di memorizzazione, recupero associativo e ragionamento contestuale. Recenti lavori hanno esplorato metodi per interpretare, manipolare e riconfigurare questa memoria latente. La memoria esplicita coinvolge componenti di archiviazione e recupero esterni progettati per arricchire gli output del modello con rappresentazioni di conoscenza dinamiche e interrogabili, come corpora testuali, vettori densi e strutture basate su grafi, consentendo così un'interazione scalabile e aggiornabile con le fonti informative. La memoria agenziale introduce strutture mnemoniche persistenti e temporalmente estese all'interno di agenti autonomi, facilitando la pianificazione a lungo termine, l'auto-consistenza e il comportamento collaborativo in sistemi multi-agente, con rilevanza per l'IA embodied e interattiva. Estendendosi oltre il testo, la rassegna esamina l'integrazione della memoria in contesti multimodali, dove la coerenza tra modalità visive, linguistiche, auditive e di azione è essenziale. Vengono discussi i principali progressi architetturali, i task di benchmark e le sfide aperte, incluse le problematiche relative alla capacità mnemonica, all'allineamento, alla consistenza fattuale e all'interoperabilità cross-system.
English
Memory plays a foundational role in augmenting the reasoning, adaptability, and contextual fidelity of modern Large Language Models and Multi-Modal LLMs. As these models transition from static predictors to interactive systems capable of continual learning and personalized inference, the incorporation of memory mechanisms has emerged as a central theme in their architectural and functional evolution. This survey presents a comprehensive and structured synthesis of memory in LLMs and MLLMs, organizing the literature into a cohesive taxonomy comprising implicit, explicit, and agentic memory paradigms. Specifically, the survey delineates three primary memory frameworks. Implicit memory refers to the knowledge embedded within the internal parameters of pre-trained transformers, encompassing their capacity for memorization, associative retrieval, and contextual reasoning. Recent work has explored methods to interpret, manipulate, and reconfigure this latent memory. Explicit memory involves external storage and retrieval components designed to augment model outputs with dynamic, queryable knowledge representations, such as textual corpora, dense vectors, and graph-based structures, thereby enabling scalable and updatable interaction with information sources. Agentic memory introduces persistent, temporally extended memory structures within autonomous agents, facilitating long-term planning, self-consistency, and collaborative behavior in multi-agent systems, with relevance to embodied and interactive AI. Extending beyond text, the survey examines the integration of memory within multi-modal settings, where coherence across vision, language, audio, and action modalities is essential. Key architectural advances, benchmark tasks, and open challenges are discussed, including issues related to memory capacity, alignment, factual consistency, and cross-system interoperability.