Jenseits der Faktenabfrage: Episodisches Gedächtnis für RAG mit generativen semantischen Arbeitsbereichen
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
November 10, 2025
papers.authors: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) stehen vor grundlegenden Herausforderungen beim schlussfolgernden Denken über lange Kontexte: Viele Dokumente überschreiten ihre begrenzten Kontextfenster, während die Leistung bei Texten, die hineinpassen, mit der Sequenzlänge abnimmt. Dies macht ihre Erweiterung durch externe Speicherframeworks notwendig. Aktuelle Lösungen, die sich von der Retrievalnutzung semantischer Einbettungen zu anspruchsvolleren strukturierten Wissensgraphen-Repräsentationen für verbessertes Sinnverstehen und Assoziativität entwickelt haben, sind auf faktenbasiertes Retrieval zugeschnitten und scheitern daran, zeit-räumlich verankerte narrative Repräsentationen aufzubauen, die für die Verfolgung von Entitäten über episodische Ereignisse hinweg erforderlich sind. Um diese Lücke zu schließen, schlagen wir den Generativen Semantischen Arbeitsbereich (GSW) vor, ein neuroinspiriertes generatives Speicherframework, das strukturierte, interpretierbare Repräsentationen sich entwickelnder Situationen aufbaut und es LLMs ermöglicht, über sich wandelnde Rollen, Handlungen und raumzeitliche Kontexte zu schlussfolgern. Unser Framework besteht aus einem Operator, der eingehende Beobachtungen auf intermediäre semantische Strukturen abbildet, und einem Reconciliator, der diese in einen persistenten Arbeitsbereich integriert, der zeitliche, räumliche und logische Kohärenz erzwingt. Auf dem Episodic Memory Benchmark (EpBench) huet_episodic_2025, der Korpora mit Längen von 100k bis 1M Tokens umfasst, übertrifft GSW bestehende RAG-basierte Baseline-Modelle um bis zu 20 %. Darüber hinaus ist GSW hocheffizient und reduziert die Kontext-Tokens zur Abfragezeit um 51 % im Vergleich zur nächsttoken-effizientesten Baseline, was die Inferenzzeitkosten erheblich senkt. Weiter gefasst bietet GSW einen konkreten Bauplan, um LLMs mit einer dem menschlichen episodischen Gedächtnis ähnlichen Fähigkeit auszustatten und ebnet so den Weg für leistungsfähigere Agenten, die über lange Zeithorizonte hinweg schlussfolgern können.
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.