Der KI-Hippocampus: Wie weit sind wir vom menschlichen Gedächtnis entfernt?
The AI Hippocampus: How Far are We From Human Memory?
January 14, 2026
papers.authors: Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu, Quansen Wang, Xiaobo Wang, Shuyi Zhang, Junzhe Shen, Qing Li, Siyuan Qi, Yitao Liang, Di He, Zilong Zheng, Song-Chun Zhu
cs.AI
papers.abstract
Der Speicher spielt eine grundlegende Rolle bei der Erweiterung der Fähigkeiten moderner großer Sprachmodelle (Large Language Models, LLMs) und multimodaler LLMs (MLLMs) in Bezug auf logisches Schlussfolgern, Anpassungsfähigkeit und kontextuelle Treue. Während sich diese Modelle von statischen Vorhersagesystemen zu interaktiven Systemen entwickeln, die kontinuierliches Lernen und personalisierte Inferenz ermöglichen, ist die Integration von Speichermechanismen zu einem zentralen Thema in ihrer architektonischen und funktionalen Evolution geworden. Dieser Übersichtsartikel bietet eine umfassende und strukturierte Synthese des Speichers in LLMs und MLLMs und ordnet die Literatur in eine kohärente Taxonomie ein, die implizite, explizite und agentenbasierte Speicherparadigmen umfasst.
Im Einzelnen werden drei primäre Speicherframeworks dargestellt. Der implizite Speicher bezieht sich auf das Wissen, das in den internen Parametern vortrainierter Transformer-Modelle eingebettet ist, und umfasst deren Fähigkeit zur Memorierung, assoziativen Abfrage und kontextuellen Schlussfolgerung. Jüngste Arbeiten haben Methoden erforscht, um diesen latenten Speicher zu interpretieren, zu manipulieren und neu zu konfigurieren. Der explizite Speicher umfasst externe Speicher- und Abrufkomponenten, die entwickelt wurden, um Modellausgaben mit dynamischen, abfragbaren Wissensrepräsentationen wie Textkorpora, dichten Vektoren und graphenbasierten Strukturen anzureichern, wodurch eine skalierbare und aktualisierbare Interaktion mit Informationsquellen ermöglicht wird. Der agentenbasierte Speicher führt persistente, zeitlich erweiterte Speicherstrukturen in autonomen Agenten ein, die langfristige Planung, Selbstkonsistenz und kooperatives Verhalten in Multi-Agenten-Systemen erleichtern, mit Relevanz für verkörperte und interaktive KI.
Über Text hinausgehend untersucht der Übersichtsartikel die Integration von Speicher in multimodalen Settings, bei denen Kohärenz über visuelle, sprachliche, auditive und Handlungsmodalitäten hinweg essenziell ist. Wichtige architektonische Fortschritte, Benchmark-Aufgaben und offene Herausforderungen werden diskutiert, einschließlich Fragen der Speicherkapazität, Ausrichtung (Alignment), faktischen Konsistenz und systemübergreifenden Interoperabilität.
English
Memory plays a foundational role in augmenting the reasoning, adaptability, and contextual fidelity of modern Large Language Models and Multi-Modal LLMs. As these models transition from static predictors to interactive systems capable of continual learning and personalized inference, the incorporation of memory mechanisms has emerged as a central theme in their architectural and functional evolution. This survey presents a comprehensive and structured synthesis of memory in LLMs and MLLMs, organizing the literature into a cohesive taxonomy comprising implicit, explicit, and agentic memory paradigms. Specifically, the survey delineates three primary memory frameworks. Implicit memory refers to the knowledge embedded within the internal parameters of pre-trained transformers, encompassing their capacity for memorization, associative retrieval, and contextual reasoning. Recent work has explored methods to interpret, manipulate, and reconfigure this latent memory. Explicit memory involves external storage and retrieval components designed to augment model outputs with dynamic, queryable knowledge representations, such as textual corpora, dense vectors, and graph-based structures, thereby enabling scalable and updatable interaction with information sources. Agentic memory introduces persistent, temporally extended memory structures within autonomous agents, facilitating long-term planning, self-consistency, and collaborative behavior in multi-agent systems, with relevance to embodied and interactive AI. Extending beyond text, the survey examines the integration of memory within multi-modal settings, where coherence across vision, language, audio, and action modalities is essential. Key architectural advances, benchmark tasks, and open challenges are discussed, including issues related to memory capacity, alignment, factual consistency, and cross-system interoperability.