STALE: Могут ли агенты LLM знать, когда их память утратила актуальность?

Аннотация

Агенты на основе больших языковых моделей (LLM) всё чаще должны поддерживать когерентную, долгосрочную персонализированную память, однако современные тесты в основном измеряют статическое извлечение фактов, упуская из виду способность пересматривать сохранённые убеждения при появлении новых доказательств. Мы выявляем критический и малоизученный тип сбоя — имплицитный конфликт: более позднее наблюдение опровергает более раннее воспоминание без явного отрицания, что требует контекстного вывода и применения здравого смысла для его обнаружения. Для строгой оценки этой способности мы представляем STALE — эталон из 400 подтверждённых экспертами сценариев конфликтов (1200 оценочных запросов по трём зондирующим измерениям), охватывающий более 100 повседневных тем с контекстами объёмом до 150 тысяч токенов. Мы предлагаем трёхмерную зондирующую структуру, которая проверяет: разрешение состояния (обнаружение того, что предыдущее убеждение устарело), устойчивость к предпосылкам (отклонение запросов, ложно предполагающих устаревшее состояние) и имплицитную адаптацию политики (активное применение обновлённых состояний в последующем поведении). Систематическая оценка передовых LLM и специализированных фреймворков для памяти выявляет повсеместный разрыв между извлечением обновлённых свидетельств и действиями на их основе: даже лучшая из оценённых моделей достигает лишь 55,2% общей точности. Модели часто принимают устаревшие допущения, встроенные в запрос пользователя, и с трудом распознают, когда изменение одного аспекта состояния пользователя должно аннулировать связанные воспоминания. Чтобы установить начальный базис для памяти, учитывающей состояния, мы также представляем CUPMem — прототип, усиливающий ревизию на этапе записи с помощью структурированной консолидации состояний и поиска с учётом распространения, что указывает на то, что явное согласование состояний является перспективным направлением для создания устойчивой агентской памяти.

English

Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.