SubtleMemory: Ein Benchmark für feingranulare relationale Gedächtnisdiskrimination bei KI-Agenten mit langem Zeithorizont

Zusammenfassung

Persistente KI-Assistenten wie OpenClaw sammeln über langfristige Interaktionen große Sammlungen zusammenhängender Erinnerungen an. Wenn diese Erinnerungen wachsen, können sie sich gegenseitig verstärken, kontextabhängig auseinanderdriften oder in direkten Konflikt geraten, sodass korrekte Unterstützung eher von Gedächtnisbeziehungen als von isoliertem Abruf abhängt. Bestehende Benchmarks für Langzeitgedächtnis untersuchen selten, wie Agenten solche Beziehungen während nachgelagerter Aufgaben bewahren und nutzen. Um diese Lücke zu schließen, führen wir SubtleMemory ein, einen Benchmark für feinkörnige relationale Gedächtnisdiskriminierung in langlebigen KI-Agenten. SubtleMemory konstruiert relationsgesteuerte latente semantische Artefakte, deren Varianten komplementäre, nuancierte oder widersprüchliche Beziehungen instanziieren, und bettet sie in realistische Nutzer-Agenten-Verläufe ein, sodass Agenten während späterer Abfragen und Anweisungen verteilte relationale Strukturen wiederherstellen müssen. Der Benchmark umfasst 1.522 Evaluierungsinstanzen über 10 lange Verläufe, basierend auf 1.090 relationsgesteuerten Gedächtnis-Varianten-Sets und erstreckt sich über nutzerbezogene und nicht-nutzerbezogene Abfragen. Bei der Evaluierung von sechs eigenständigen Gedächtnissystemen, zwei Claw-artigen Agenten mit nativen Gedächtnismodulen und drei Claw-artigen Agenten mit Plugin-Gedächtnismodulen stellen wir fest, dass aktuelle Systeme bei der feinkörnigen relationalen Gedächtnisdiskriminierung schwach bleiben. Wir führen zudem diagnostische Protokolle ein, die unterschiedliche Fähigkeitsprofile in den Phasen der Gedächtniserhaltung, des Abrufs und des nachgelagerten Schließens offenlegen.

English

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.