事実検索を超えて:生成的セマンティックワークスペースによるRAGのためのエピソード記憶
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
November 10, 2025
著者: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI
要旨
大規模言語モデル(LLMs)は、長文脈推論において根本的な課題に直面している。多くの文書は有限のコンテキストウィンドウを超える一方で、収まるテキストに対する性能も系列長の増加とともに低下するため、外部記憶フレームワークによる拡張が不可欠である。現在の解決策は、意味的埋め込みを用いた検索から、より高度な構造化知識グラフ表現へと進化し、意味理解と連想性を改善してきたが、これらは事実ベースの検索に特化しており、エピソード的事象を通じてエンティティを追跡するために必要な時空間に固定された物語的表現を構築できない。この課題を解決するため、我々は生成的セマンティックワークスペース(GSW)を提案する。これは神経科学にヒントを得た生成的記憶フレームワークであり、変化する状況の構造化され解釈可能な表現を構築することで、LLMsが時間的・空間的文脈や役割・行動の変化を推論することを可能にする。本フレームワークは、入力観測を中間的な意味構造に写像する「オペレーター」と、これらの構造を時間的・空間的・論理的整合性を保証する永続的ワークスペースに統合する「レコンシラー」で構成される。100kから1Mトークン規模のコーパスから成るエピソード記憶ベンチマーク(EpBench)において、GSWは既存のRAGベースのベースラインを最大20%上回る性能を示した。さらにGSWは高い効率性を有し、次点のトークン効率ベースラインと比較してクエリ時のコンテキストトークンを51%削減し、推論時間コストを大幅に低減する。より広義には、GSWはLLMsに人間的なエピソード記憶を付与する具体的な設計図を提供し、長期的な推論が可能なより高度なエージェントへの道を開くものである。
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.