Ook uw agents verouderen: levensduurengineering voor agents in productieomgevingen

Samenvatting

Langlevende AI-agenten worden steeds vaker ingezet als permanente operationele systemen, maar worden nog steeds geëvalueerd als pas geïnitialiseerde modellen. Dag-één-benchmarks missen een fundamentele systeemvraag: hoe lang blijft een agent betrouwbaar na implementatie? Zelfs als modelgewichten bevroren zijn, verandert de effectieve toestand van een agent voortdurend doordat hij interactiegeschiedenis comprimeert, uit een groeiende geheugenopslag haalt, feiten herziet na updates en routinematig onderhoud ondergaat. Betrouwbaarheid wordt daarom een levensduureigenschap van het volledige agentraamwerk, niet alleen een momentopname van het basismodel. We introduceren AgingBench, een longitudinale betrouwbaarheidsbenchmark voor levensduurtechniek van agenten: deze meet niet alleen of geïmplementeerde agenten degraderen, maar ook welke vorm de degradatie aanneemt en waar reparatie zich op moet richten. AgingBench organiseert agentveroudering in vier mechanismen: compressieveroudering, interferentieveroudering, revisieveroudering en onderhoudsveroudering. Om deze fouten te diagnosticeren, gebruikt AgingBench temporele afhankelijkheidsgrafieken en gepaarde contrafeitelijke probes die diagnostische profielen genereren voor de schrijf-, ophaal- en gebruiksfasen van de geheugenpijplijn. In zeven scenario's, veertien modellen, meerdere geheugenbeleidsregels en zowel door runner gecontroleerde als autonome agenten, tonen ~400 runs verspreid over 8 tot 200 sessies aan dat agentveroudering niet eendimensionaal is: gedragstests kunnen zuiver blijven terwijl de feitelijke precisie achteruitgaat; het bijhouden van afgeleide toestanden kan scherp instorten binnen één enkel model; en hetzelfde verkeerde antwoord kan verschillende reparaties vereisen, afhankelijk van waar het diagnostische profiel naar wijst. Deze resultaten suggereren dat betrouwbare agentimplementatie levensduurevaluatie, diagnose op mechanismeniveau en fasegerichte reparatie vereist, niet alleen sterkere dag-één-modellen.

English

Long-lived AI agents are increasingly deployed as persistent operational systems, yet they are still evaluated like freshly initialized models. Day-one benchmarks miss a basic systems question: how long does an agent remain reliable after deployment? Even when model weights are frozen, an agent's effective state keeps changing as it compresses interaction history, retrieves from a growing memory store, revises facts after updates, and undergoes routine maintenance. Reliability therefore becomes a lifespan property of the full agent harness, not only a snapshot property of the base model. We introduce AgingBench, a longitudinal reliability benchmark for agent lifespan engineering: measuring not only whether deployed agents degrade, but what form the degradation takes and where repair should target. AgingBench organizes agent aging into four mechanisms: compression aging, interference aging, revision aging, and maintenance aging. To diagnose these failures, AgingBench uses temporal dependency graphs and paired counterfactual probes that produce diagnostic profiles for the write, retrieval, and utilization stages of the memory pipeline. Across 7 scenarios, 14 models, multiple memory policies, and both runner-controlled and autonomous agents, over ~400 runs spanning 8 - 200 sessions show that agent aging is not one-dimensional: behavioral tests can remain clean while factual precision decays; derived-state tracking can collapse sharply within a single model; and the same wrong answer can require different repairs depending on what the diagnostic profile points to. These results suggest that reliable agent deployment requires lifespan evaluation, mechanism-level diagnosis, and stage-targeted repair, not only stronger day-one models.