STALE : Les agents LLM peuvent-ils savoir quand leurs mémoires ne sont plus valides ?

Résumé

Les agents basés sur les grands modèles de langage (LLM) sont de plus en plus appelés à maintenir une mémoire personnalisée cohérente et à long terme, mais les référentiels actuels mesurent principalement la récupération statique de faits, négligeant la capacité à réviser les croyances mémorisées lorsque de nouvelles preuves émergent. Nous identifions un mode de défaillance critique et peu exploré, le Conflit Implicite : une observation ultérieure invalide un souvenir antérieur sans négation explicite, nécessitant une inférence contextuelle et un raisonnement de bon sens pour être détectée. Afin d’évaluer rigoureusement cette capacité, nous présentons STALE, un benchmark de 400 scénarios de conflit validés par des experts (1 200 requêtes d’évaluation réparties sur trois dimensions de sondage) couvrant plus de 100 sujets quotidiens avec des contextes allant jusqu’à 150 000 tokens. Nous proposons un cadre de sondage tridimensionnel qui teste la Résolution d’État (détecter qu’une croyance antérieure est obsolète), la Résistance aux Prémisses (rejeter les requêtes qui présupposent faussement un état périmé) et l’Adaptation Implicite des Politiques (appliquer proactivement des états mis à jour dans le comportement aval). Une évaluation systématique des LLM de pointe et des architectures mémoire spécialisées révèle un écart persistant entre la récupération de preuves actualisées et leur mise en œuvre, le meilleur modèle évalué n’atteignant qu’une précision globale de 55,2%. Les modèles acceptent souvent les hypothèses obsolètes intégrées dans une requête utilisateur, et peinent à reconnaître quand un changement dans un aspect de l’état de l’utilisateur devrait invalider des souvenirs connexes. Pour établir une première référence pour une mémoire sensible à l’état, nous présentons également CUPMem, un prototype qui renforce la révision à l’écriture via une consolidation structurée des états et une recherche sensible à la propagation, suggérant que l’arbitrage explicite des états constitue une voie prometteuse pour une mémoire agentique robuste.

English

Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.