ChatPaper.aiChatPaper

사실 검색을 넘어서: 생성적 의미 작업 공간을 활용한 RAG의 에피소드 메모리

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

November 10, 2025
저자: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI

초록

대규모 언어 모델(LLM)은 장문 맥락 추론에서 근본적인 과제에 직면해 있습니다: 많은 문서가 모델의 유한한 컨텍스트 윈도우를 초과하는 반면, 컨텍스트 내에 완전히 포함되는 텍스트에 대한 성능도 시퀀스 길이가 늘어남에 따라 저하됩니다. 이로 인해 외부 메모리 프레임워크를 통한 보강이 필수적입니다. 의미 임베딩을 활용한 검색에서 출발해 향상된 의미 구성과 연관성을 위한 정교한 구조적 지식 그래프 표현으로 진화한 현재의 솔루션들은 사실 기반 검색에 특화되어 있으며, 사건적 에피소드 전반에 걸쳐 개체를 추적하는 데 필요한 시공간에 기반한 서사적 표현을 구축하지 못합니다. 이러한 격차를 해소하기 위해 우리는 생성형 의미 작업 공간(Generative Semantic Workspace, GSW)을 제안합니다. GSW는 진화하는 상황에 대한 구조화되고 해석 가능한 표현을 구축하여 LLM이 변화하는 역할, 행동, 시공간적 맥락에 대해 추론할 수 있도록 하는 신경망 영감을 받은 생성형 메모리 프레임워크입니다. 우리의 프레임워크는 들어오는 관찰 데이터를 중간 의미 구조로 매핑하는 운영자(Operator)와 이를 시간적, 공간적, 논리적 일관성을 유지하는 지속적 작업 공간에 통합하는 조정자(Reconciler)로 구성됩니다. 길이가 10만 토큰에서 100만 토큰에 이르는 코퍼스로 구성된 Episodic Memory Benchmark (EpBench) [huet_episodic_2025]에서 GSW는 기존 RAG 기반 베이스라인을 최대 20%까지 능가하는 성능을 보였습니다. 더 나아가 GSW는 매우 효율적이어서, 다음으로 토큰 효율이 높은 베이스라인 대비 쿼리 시간 컨텍스트 토큰을 51% 줄여 추론 시간 비용을 상당히 절감합니다. 더 광범위하게 보면, GSW는 LLM에 인간과 유사한 에피소드 메모리를 부여하기 위한 구체적인 청사진을 제공하여, 장기적인 관점에서 추론할 수 있는 더 유능한 에이전트 개발의 길을 열어줍니다.
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.
PDF82December 2, 2025