STALE: Kunnen LLM-agenten weten wanneer hun herinneringen niet langer geldig zijn?

Samenvatting

Van agenten op basis van grote taalmodellen (LLM's) wordt steeds vaker verwacht dat ze coherente, langetermijn gepersonaliseerde herinneringen onderhouden, maar huidige benchmarks meten voornamelijk statische feitenretrieval en negeren het vermogen om opgeslagen overtuigingen te herzien wanneer nieuw bewijs opduikt. We identificeren een kritieke en onderbelichte faalmodus, Impliciet Conflict: een latere observatie maakt een eerdere herinnering ongeldig zonder expliciete ontkenning, wat contextuele inferentie en gezond verstand vereist om te detecteren. Om deze capaciteit rigoureus te evalueren, introduceren we STALE, een benchmark van 400 door experts gevalideerde conflictscenario's (1.200 evaluatievragen over drie onderzoeksdimensies) die meer dan 100 alledaagse onderwerpen bestrijken met contexten tot 150K tokens. We stellen een driedimensionaal onderzoekskader voor dat test op State Resolution (detecteren dat een eerdere overtuiging verouderd is), Premise Resistance (verwerpen van queries die ten onrechte een verouderde toestand veronderstellen) en Implicit Policy Adaptation (proactief toepassen van bijgewerkte toestanden in stroomafwaarts gedrag). Een systematische evaluatie van geavanceerde LLM's en gespecialiseerde geheugenkaders onthult een wijdverbreide kloof tussen het ophalen van bijgewerkt bewijs en het ernaar handelen, waarbij zelfs het best beoordeelde model slechts 55,2% algemene nauwkeurigheid behaalt. Modellen accepteren vaak verouderde aannames die in de query van een gebruiker zijn ingebed, en ze hebben moeite om te herkennen wanneer een verandering in een aspect van de toestand van de gebruiker gerelateerde herinneringen ongeldig moet maken. Om een initiële basislijn vast te stellen voor toestandsbewust geheugen, presenteren we verder CUPMem, een prototype dat de revisie bij schrijven versterkt door gestructureerde toestandsconsolidatie en propagatiebewust zoeken, wat suggereert dat expliciete toestandsadjudicatie een veelbelovende richting is voor robuust agentisch geheugen.

English

Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.