Além da Recuperação de Factos: Memória Episódica para RAG com Espaços Semânticos Generativos
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
November 10, 2025
Autores: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI
Resumo
Os Modelos de Linguagem de Grande Porte (LLMs) enfrentam desafios fundamentais no raciocínio de contexto longo: muitos documentos excedem suas janelas de contexto finitas, enquanto o desempenho em textos que cabem nelas se degrada com o comprimento da sequência, tornando necessária sua ampliação com estruturas de memória externa. As soluções atuais, que evoluíram da recuperação usando incorporações semânticas para representações mais sofisticadas baseadas em grafos de conhecimento estruturado para melhorar a compreensão e a associatividade, são adaptadas para recuperação baseada em fatos e não conseguem construir as representações narrativas ancoradas no espaço-tempo necessárias para rastrear entidades através de eventos episódicos. Para preencher essa lacuna, propomos o Espaço de Trabalho Semântico Generativo (GSW), uma estrutura de memória generativa de inspiração neurocientífica que constrói representações estruturadas e interpretáveis de situações em evolução, permitindo que os LLMs raciocinem sobre papéis, ações e contextos espaço-temporais dinâmicos. Nossa estrutura compreende um Operador, que mapeia observações recebidas para estruturas semânticas intermediárias, e um Reconcilidador, que as integra em um espaço de trabalho persistente que impõe coerência temporal, espacial e lógica. No Episodic Memory Benchmark (EpBench) huet_episodic_2025, que compreende corpora variando de 100k a 1M de tokens em extensão, o GSW supera as linhas de base existentes baseadas em RAG em até 20%. Além disso, o GSW é altamente eficiente, reduzindo os tokens de contexto no momento da consulta em 51% em comparação com a próxima linha de base mais eficiente em tokens, reduzindo consideravelmente os custos de tempo de inferência. De forma mais ampla, o GSW oferece um projeto concreto para dotar os LLMs de uma memória episódica semelhante à humana, abrindo caminho para agentes mais capazes que podem raciocinar sobre horizontes longos.
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.