AIの海馬:人間の記憶からどれだけ近づいたか?
The AI Hippocampus: How Far are We From Human Memory?
January 14, 2026
著者: Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu, Quansen Wang, Xiaobo Wang, Shuyi Zhang, Junzhe Shen, Qing Li, Siyuan Qi, Yitao Liang, Di He, Zilong Zheng, Song-Chun Zhu
cs.AI
要旨
記憶は、現代の大規模言語モデル(LLM)やマルチモーダルLLMの推論能力、適応性、文脈忠実性を強化する上で基盤的な役割を果たす。これらのモデルが静的な予測器から、継続的学習と個別化推論が可能な対話型システムへと移行するにつれ、記憶メカニズムの組み込みは、そのアーキテクチャと機能の進化における中心的なテーマとして浮上している。本サーベイは、LLMおよびMLLMにおける記憶について、暗黙的記憶、明示的記憶、エージェンシック記憶のパラダイムから構成される体系的な分類法に文献を整理し、包括的かつ構造化された統合を提示する。具体的には、本調査は三つの主要な記憶フレームワークを明らかにする。暗黙的記憶は、事前学習済みトランスフォーマーの内部パラメータに埋め込まれた知識を指し、記憶化、連想的検索、文脈的推論の能力を含む。最近の研究では、この潜在記憶を解釈し、操作し、再構成する手法が探求されている。明示的記憶は、動的で検索可能な知識表現(テキストコーパス、密ベクトル、グラフベース構造など)によってモデル出力を拡張するように設計された外部記憶・検索コンポーネントを含み、情報源との拡張性と更新可能性を備えた相互作用を可能にする。エージェンシック記憶は、自律エージェント内に永続的かつ時間的に拡張された記憶構造を導入し、マルチエージェントシステムにおける長期計画、自己一貫性、協調行動を促進し、具身化AIや対話型AIに関連する。テキストを超えて、本調査は視覚、言語、音声、行動モダリティ間の一貫性が不可欠なマルチモーダル環境における記憶の統合を検討する。記憶容量、アライメント、事実的一貫性、クロスシステム相互運用性に関する課題を含む、主要なアーキテクチャの進展、ベンチマークタスク、未解決の課題について論じる。
English
Memory plays a foundational role in augmenting the reasoning, adaptability, and contextual fidelity of modern Large Language Models and Multi-Modal LLMs. As these models transition from static predictors to interactive systems capable of continual learning and personalized inference, the incorporation of memory mechanisms has emerged as a central theme in their architectural and functional evolution. This survey presents a comprehensive and structured synthesis of memory in LLMs and MLLMs, organizing the literature into a cohesive taxonomy comprising implicit, explicit, and agentic memory paradigms. Specifically, the survey delineates three primary memory frameworks. Implicit memory refers to the knowledge embedded within the internal parameters of pre-trained transformers, encompassing their capacity for memorization, associative retrieval, and contextual reasoning. Recent work has explored methods to interpret, manipulate, and reconfigure this latent memory. Explicit memory involves external storage and retrieval components designed to augment model outputs with dynamic, queryable knowledge representations, such as textual corpora, dense vectors, and graph-based structures, thereby enabling scalable and updatable interaction with information sources. Agentic memory introduces persistent, temporally extended memory structures within autonomous agents, facilitating long-term planning, self-consistency, and collaborative behavior in multi-agent systems, with relevance to embodied and interactive AI. Extending beyond text, the survey examines the integration of memory within multi-modal settings, where coherence across vision, language, audio, and action modalities is essential. Key architectural advances, benchmark tasks, and open challenges are discussed, including issues related to memory capacity, alignment, factual consistency, and cross-system interoperability.