STALE: ¿Pueden los agentes LLM saber cuándo sus memorias ya no son válidas?

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM) son cada vez más requeridos para mantener una memoria personalizada coherente y a largo plazo. Sin embargo, los referentes actuales se centran principalmente en la recuperación estática de hechos, pasando por alto la capacidad de revisar creencias almacenadas cuando surge nueva evidencia. Identificamos un modo de fallo crítico y poco explorado, el Conflicto Implícito: una observación posterior invalida un recuerdo anterior sin negación explícita, lo que requiere inferencia contextual y razonamiento de sentido común para detectarlo. Para evaluar rigurosamente esta capacidad, presentamos STALE, un referente de 400 escenarios de conflicto validados por expertos (1.200 consultas de evaluación en tres dimensiones de análisis) que abarca más de 100 temas cotidianos con contextos de hasta 150 000 tokens. Proponemos un marco de análisis tridimensional que evalúa la Resolución de Estado (detectar que una creencia previa está desactualizada), la Resistencia a Premisas (rechazar consultas que presuponen falsamente un estado obsoleto) y la Adaptación Implícita de Políticas (aplicar proactivamente estados actualizados en el comportamiento descendente). Una evaluación sistemática de LLMs de frontera y marcos de memoria especializados revela una brecha generalizada entre recuperar evidencia actualizada y actuar en consecuencia; incluso el mejor modelo evaluado alcanza solo un 55,2% de precisión global. Los modelos suelen aceptar suposiciones obsoletas implícitas en la consulta del usuario y tienen dificultades para reconocer cuándo un cambio en un aspecto del estado del usuario debe invalidar recuerdos relacionados. Para establecer una línea base inicial para una memoria consciente del estado, presentamos además CUPMem, un prototipo que fortalece la revisión en el momento de la escritura mediante una consolidación estructurada del estado y una búsqueda con propagación, lo que sugiere que la adjudicación explícita de estados es una dirección prometedora para una memoria de agente robusta.

English

Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.