STALE: Können LLM-Agenten wissen, wann ihre Erinnerungen nicht mehr gültig sind?

Zusammenfassung

Große Sprachmodelle (LLMs) als Agenten werden zunehmend mit der Erwartung konfrontiert, kohärente, langfristige und personalisierte Gedächtnisinhalte aufrechtzuerhalten. Aktuelle Benchmarks messen jedoch hauptsächlich das Abrufen statischer Fakten und übersehen dabei die Fähigkeit, gespeicherte Überzeugungen zu revidieren, wenn neue Belege auftauchen. Wir identifizieren einen kritischen und wenig erforschten Fehlermodus, den impliziten Konflikt: Eine spätere Beobachtung macht eine frühere Erinnerung ungültig, ohne dass eine explizite Negation vorliegt, sodass kontextuelle Inferenz und gesunder Menschenverstand zur Erkennung erforderlich sind. Um diese Fähigkeit rigoros zu evaluieren, führen wir STALE ein, einen Benchmark mit 400 expertengültigen Konfliktszenarien (1.200 Evaluierungsabfragen über drei Untersuchungsdimensionen), die über 100 alltägliche Themen mit Kontexten von bis zu 150.000 Token abdecken. Wir schlagen ein dreidimensionales Untersuchungsrahmenwerk vor, das die Zustandsauflösung (Erkennen, dass eine frühere Überzeugung veraltet ist), die Prämissenresistenz (Ablehnen von Abfragen, die fälschlicherweise einen veralteten Zustand voraussetzen) und die implizite Politikadaption (proaktives Anwenden aktualisierter Zustände im nachgelagerten Verhalten) testet. Eine systematische Evaluierung führender LLMs und spezialisierter Gedächtnisrahmenwerke offenbart eine durchgängige Kluft zwischen dem Abrufen aktualisierter Belege und dem Handeln danach: Selbst das am besten bewertete Modell erreicht nur 55,2 % Gesamtgenauigkeit. Modelle akzeptieren oft veraltete Annahmen, die in der Abfrage eines Nutzers eingebettet sind, und haben Schwierigkeiten zu erkennen, wann eine Änderung eines Aspekts des Nutzerzustands verwandte Erinnerungen ungültig machen sollte. Um eine erste Basislinie für zustandsbewusstes Gedächtnis zu schaffen, präsentieren wir zudem CUPMem, einen Prototypen, der die Revisionsfähigkeit beim Schreiben durch strukturierte Zustandskonsolidierung und ausbreitungssensitive Suche verstärkt. Dies deutet darauf hin, dass eine explizite Zustandsbereinigung ein vielversprechender Weg für robustes agentisches Gedächtnis ist.

English

Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.