ChatPaper.aiChatPaper

За пределами извлечения фактов: эпизодическая память для RAG с генеративными семантическими пространствами

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

November 10, 2025
Авторы: Shreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury
cs.AI

Аннотация

Крупные языковые модели (LLM) сталкиваются с фундаментальными проблемами при рассуждениях в длинном контексте: многие документы превышают их ограниченные окна контекста, в то время как производительность на текстах, которые помещаются, ухудшается с увеличением длины последовательности, что обуславливает необходимость их дополнения внешними фреймворками памяти. Современные решения, эволюционировавшие от поиска с использованием семантических эмбеддингов до более сложных структурированных представлений в виде графов знаний для улучшения осмысления и ассоциативности, ориентированы на фактологический поиск и не способны строить привязанные к пространству-времени нарративные представления, необходимые для отслеживания сущностей в рамках эпизодических событий. Чтобы устранить этот пробел, мы предлагаем Генеративное семантическое рабочее пространство (GSW) — нейроинспирированный фреймворк генеративной памяти, который строит структурированные, интерпретируемые представления развивающихся ситуаций, позволяя LLM рассуждать об изменяющихся ролях, действиях и пространственно-временных контекстах. Наш фреймворк включает Оператор, который отображает поступающие наблюдения в промежуточные семантические структуры, и Согласователь, который интегрирует их в постоянное рабочее пространство, обеспечивающее временную, пространственную и логическую согласованность. На Эпизодическом бенчмарке памяти (EpBench) huet_episodic_2025, состоящем из корпусов длиной от 100 тыс. до 1 млн токенов, GSW превосходит существующие базовые методы на основе RAG до 20%. Более того, GSW высокоэффективен, сокращая количество токенов контекста во время запроса на 51% по сравнению со следующим наиболее экономным базовым методом, что значительно снижает затраты на время вывода. В более широком смысле, GSW предлагает конкретный план по наделению LLM человеко-подобной эпизодической памятью, прокладывая путь к созданию более способных агентов, которые могут рассуждать на длительных временных горизонтах.
English
Large Language Models (LLMs) face fundamental challenges in long-context reasoning: many documents exceed their finite context windows, while performance on texts that do fit degrades with sequence length, necessitating their augmentation with external memory frameworks. Current solutions, which have evolved from retrieval using semantic embeddings to more sophisticated structured knowledge graphs representations for improved sense-making and associativity, are tailored for fact-based retrieval and fail to build the space-time-anchored narrative representations required for tracking entities through episodic events. To bridge this gap, we propose the Generative Semantic Workspace (GSW), a neuro-inspired generative memory framework that builds structured, interpretable representations of evolving situations, enabling LLMs to reason over evolving roles, actions, and spatiotemporal contexts. Our framework comprises an Operator, which maps incoming observations to intermediate semantic structures, and a Reconciler, which integrates these into a persistent workspace that enforces temporal, spatial, and logical coherence. On the Episodic Memory Benchmark (EpBench) huet_episodic_2025 comprising corpora ranging from 100k to 1M tokens in length, GSW outperforms existing RAG based baselines by up to 20\%. Furthermore, GSW is highly efficient, reducing query-time context tokens by 51\% compared to the next most token-efficient baseline, reducing inference time costs considerably. More broadly, GSW offers a concrete blueprint for endowing LLMs with human-like episodic memory, paving the way for more capable agents that can reason over long horizons.
PDF82December 2, 2025