Más allá de la recuperación de hechos: Memoria episódica para RAG con espacios semánticos generativos
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
November 10, 2025
Autores: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLM) enfrentan desafíos fundamentales en el razonamiento de contexto largo: muchos documentos exceden sus ventanas de contexto finitas, mientras que el rendimiento en textos que sí encajan se degrada con la longitud de la secuencia, lo que hace necesario su aumento con marcos de memoria externos. Las soluciones actuales, que han evolucionado desde la recuperación mediante incrustaciones semánticas hasta representaciones más sofisticadas basadas en grafos de conocimiento estructurado para mejorar la construcción de sentido y la asociatividad, están diseñadas para la recuperación basada en hechos y no logran construir las representaciones narrativas ancladas en el espacio-tiempo necesarias para rastrear entidades a través de eventos episódicos. Para cerrar esta brecha, proponemos el Espacio de Trabajo Semántico Generativo (GSW), un marco de memoria generativa de inspiración neuronal que construye representaciones estructuradas e interpretables de situaciones en evolución, permitiendo a los LLM razonar sobre roles, acciones y contextos espaciotemporales dinámicos. Nuestro marco consta de un Operador, que mapea observaciones entrantes a estructuras semánticas intermedias, y un Reconciliador, que las integra en un espacio de trabajo persistente que impone coherencia temporal, espacial y lógica. En el Benchmark de Memoria Episódica (EpBench) huet_episodic_2025, que comprende corpus con longitudes que van desde 100k hasta 1M de tokens, GSW supera a los baselines existentes basados en RAG hasta en un 20%. Además, GSW es altamente eficiente, reduciendo los tokens de contexto en tiempo de consulta en un 51% en comparación con el siguiente baseline más eficiente en tokens, lo que reduce considerablemente los costos de tiempo de inferencia. En términos más amplios, GSW ofrece un plan concreto para dotar a los LLM de una memoria episódica similar a la humana, allanando el camino para agentes más capaces que puedan razonar sobre horizontes largos.
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.