SubtleMemory: Een Benchmark voor Fijnmazige Relationele Geheugendiscriminatie in AI-agenten met Lange Horizon

Samenvatting

Aanhoudende AI-assistenten, zoals OpenClaw, accumuleren tijdens langdurige interacties grote verzamelingen gerelateerde herinneringen. Naarmate deze herinneringen groeien, kunnen ze elkaar versterken, divergeren in verschillende contexten, of direct met elkaar conflicteren, waardoor correcte ondersteuning afhangt van geheugenrelaties in plaats van geïsoleerde herinnering. Bestaande benchmarks voor langetermijngeheugen onderzoeken zelden hoe agenten dergelijke relaties tijdens stroomafwaartse taken behouden en benutten. Om deze kloof aan te pakken, introduceren we SubtleMemory, een benchmark voor fijnmazig relationeel geheugenonderscheid in langlopende AI-agenten. SubtleMemory construeert relatiegestuurde latente semantische artefacten waarvan varianten complementaire, genuanceerde of tegenstrijdige relaties instantiëren, en integreert deze in realistische gebruikers-agentgeschiedenissen, waardoor agenten tijdens latere vragen en instructies gedistribueerde relationele structuren moeten herstellen. De benchmark bevat 1.522 evaluatie-instanties over 10 lange geschiedenissen, gebaseerd op 1.090 relatiegestuurde geheugenvariantensets, en omvat zowel gebruikersgerelateerde als niet-gebruikersgerelateerde vragen. Bij het evalueren van zes op zichzelf staande geheugensystemen, twee Claw-achtige agenten met native geheugenmodules, en drie Claw-achtige agenten met plugin-geheugenmodules, stellen we vast dat huidige systemen zwak blijven op het gebied van fijnmazig relationeel geheugenonderscheid. We introduceren verder diagnostische protocollen die verschillende capaciteitsprofielen blootleggen in de fasen van geheugenbehoud, -ophaling en stroomafwaarts redeneren.

English

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.