El hipocampo de la IA: ¿Qué tan lejos estamos de la memoria humana?
The AI Hippocampus: How Far are We From Human Memory?
January 14, 2026
Autores: Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu, Quansen Wang, Xiaobo Wang, Shuyi Zhang, Junzhe Shen, Qing Li, Siyuan Qi, Yitao Liang, Di He, Zilong Zheng, Song-Chun Zhu
cs.AI
Resumen
La memoria desempeña un papel fundamental en la mejora del razonamiento, la adaptabilidad y la fidelidad contextual de los modelos de lenguaje grandes (LLM) y los LLM multimodales (MLLM) modernos. A medida que estos modelos transitan de predictores estáticos a sistemas interactivos capaces de aprendizaje continuo e inferencia personalizada, la incorporación de mecanismos de memoria ha surgido como un tema central en su evolución arquitectónica y funcional. Esta revisión presenta una síntesis integral y estructurada de la memoria en los LLM y MLLM, organizando la literatura en una taxonomía coherente que comprende paradigmas de memoria implícita, explícita y agentiva. Específicamente, la revisión delinea tres marcos de memoria principales. La memoria implícita se refiere al conocimiento incrustado en los parámetros internos de los transformadores preentrenados, abarcando su capacidad de memorización, recuperación asociativa y razonamiento contextual. Trabajos recientes han explorado métodos para interpretar, manipular y reconfigurar esta memoria latente. La memoria explícita implica componentes externos de almacenamiento y recuperación diseñados para aumentar las salidas del modelo con representaciones de conocimiento dinámicas y consultables, como corpus textuales, vectores densos y estructuras basadas en grafos, permitiendo así una interacción escalable y actualizable con las fuentes de información. La memoria agentiva introduce estructuras de memoria persistentes y temporalmente extendidas dentro de agentes autónomos, facilitando la planificación a largo plazo, la auto-consistencia y el comportamiento colaborativo en sistemas multiagente, con relevancia para la IA incorporada e interactiva. Extendiéndose más allá del texto, la revisión examina la integración de la memoria en entornos multimodales, donde la coherencia a través de los modalidades de visión, lenguaje, audio y acción es esencial. Se discuten avances arquitectónicos clave, tareas de evaluación comparativa y desafíos abiertos, incluyendo problemas relacionados con la capacidad de memoria, la alineación, la consistencia factual y la interoperabilidad entre sistemas.
English
Memory plays a foundational role in augmenting the reasoning, adaptability, and contextual fidelity of modern Large Language Models and Multi-Modal LLMs. As these models transition from static predictors to interactive systems capable of continual learning and personalized inference, the incorporation of memory mechanisms has emerged as a central theme in their architectural and functional evolution. This survey presents a comprehensive and structured synthesis of memory in LLMs and MLLMs, organizing the literature into a cohesive taxonomy comprising implicit, explicit, and agentic memory paradigms. Specifically, the survey delineates three primary memory frameworks. Implicit memory refers to the knowledge embedded within the internal parameters of pre-trained transformers, encompassing their capacity for memorization, associative retrieval, and contextual reasoning. Recent work has explored methods to interpret, manipulate, and reconfigure this latent memory. Explicit memory involves external storage and retrieval components designed to augment model outputs with dynamic, queryable knowledge representations, such as textual corpora, dense vectors, and graph-based structures, thereby enabling scalable and updatable interaction with information sources. Agentic memory introduces persistent, temporally extended memory structures within autonomous agents, facilitating long-term planning, self-consistency, and collaborative behavior in multi-agent systems, with relevance to embodied and interactive AI. Extending beyond text, the survey examines the integration of memory within multi-modal settings, where coherence across vision, language, audio, and action modalities is essential. Key architectural advances, benchmark tasks, and open challenges are discussed, including issues related to memory capacity, alignment, factual consistency, and cross-system interoperability.