STALE: Os Agentes LLM Podem Saber Quando Suas Memórias Não São Mais Válidas?

Resumo

Os agentes de Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais esperados para manter uma memória pessoal coerente e de longo prazo, no entanto, os benchmarks atuais medem principalmente a recuperação estática de fatos, ignorando a capacidade de revisar crenças armazenadas quando novas evidências surgem. Identificamos um modo de falha crítico e pouco explorado, o Conflito Implícito: uma observação posterior invalida uma memória anterior sem negação explícita, exigindo inferência contextual e raciocínio de senso comum para ser detectado. Para avaliar rigorosamente essa capacidade, apresentamos o STALE, um benchmark com 400 cenários de conflito validados por especialistas (1.200 consultas de avaliação em três dimensões de sondagem) abrangendo mais de 100 tópicos do cotidiano, com contextos de até 150 mil tokens. Propomos uma estrutura tridimensional de sondagem que testa a Resolução de Estado (detectar que uma crença anterior está desatualizada), a Resistência a Premissas (rejeitar consultas que pressupõem falsamente um estado obsoleto) e a Adaptação Implícita de Políticas (aplicar proativamente estados atualizados em comportamentos downstream). Uma avaliação sistemática de LLMs de ponta e estruturas especializadas de memória revela uma lacuna generalizada entre recuperar evidências atualizadas e agir sobre elas, com o melhor modelo avaliado alcançando apenas 55,2% de precisão geral. Os modelos frequentemente aceitam suposições desatualizadas embutidas na consulta do usuário e têm dificuldade em reconhecer quando uma mudança em um aspecto do estado do usuário deve invalidar memórias relacionadas. Para estabelecer uma linha de base inicial para memória ciente de estado, apresentamos ainda o CUPMem, um protótipo que fortalece a revisão no momento da escrita por meio de consolidação estruturada de estado e busca ciente de propagação, sugerindo que a adjudicação explícita de estado é uma direção promissora para uma memória agentiva robusta.

English

Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.