Voorbij Feitenretrieval: Episodisch Geheugen voor RAG met Generatieve Semantische Werkruimten
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
November 10, 2025
Auteurs: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) kampen met fundamentele uitdagingen bij redeneren over lange contexten: veel documenten overschrijden hun beperkte contextvensters, terwijl de prestaties op teksten die wel binnen de limieten passen, verslechteren naarmate de sequentielengte toeneemt. Dit maakt aanvulling met externe geheugenframeworks noodzakelijk. Huidige oplossingen, die zijn geëvolueerd van retrievel met semantische embeddings naar meer geavanceerde gestructureerde knowledge graph-representaties voor verbeterde betekenisverlening en associativiteit, zijn toegesneden op feitelijke retrievel en slagen er niet in om in tijd en ruimte verankerde narratieve representaties op te bouwen die nodig zijn voor het volgen van entiteiten door episodische gebeurtenissen. Om deze kloof te overbruggen, stellen we de Generatieve Semantische Werkruimte (GSW) voor, een neuro-geïnspireerd generatief geheugenframework dat gestructureerde, interpreteerbare representaties opbouwt van zich ontwikkelende situaties. Dit stelt LLM's in staat te redeneren over evoluerende rollen, acties en ruimtelijk-temporele contexten. Ons framework bestaat uit een Operator, die inkomende observaties afbeeldt op intermediare semantische structuren, en een Verzoener, die deze integreert in een persistente werkruimte die temporele, ruimtelijke en logische coherentie afdwingt. Op de Episodische Geheugen Benchmark (EpBench) huet_episodic_2025, bestaande uit corpora met een lengte van 100k tot 1M tokens, presteert GSW tot 20% beter dan bestaande op RAG gebaseerde baseline-methoden. Bovendien is GSW zeer efficiënt: het reduceert het aantal query-time context tokens met 51% vergeleken met de op een na meest token-efficiënte baseline, wat de inferentietijdkosten aanzienlijk verlaagt. In bredere zin biedt GSW een concrete blauwdruk om LLM's te voorzien van een mensachtig episodisch geheugen, waarmee de weg wordt geëffend voor capabelere agents die over lange tijdsperioden kunnen redeneren.
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.