SubtleMemory : un benchmark pour la discrimination fine de la mémoire relationnelle dans les agents d'IA à long horizon

Résumé

Les assistants IA persistants, tels qu'OpenClaw, accumulent de vastes collections de souvenirs liés au fil d'interactions à long terme. À mesure que ces souvenirs s'accroissent, ils peuvent se renforcer mutuellement, diverger selon les contextes ou entrer en conflit direct, ce qui rend la bonne assistance dépendante des relations entre souvenirs plutôt que d'un simple rappel isolé. Les benchmarks existants de mémoire à long terme évaluent rarement la manière dont les agents préservent et exploitent ces relations lors de tâches en aval. Pour combler cette lacune, nous présentons SubtleMemory, un benchmark pour la discrimination fine de la mémoire relationnelle chez les agents IA à longue durée de vie. SubtleMemory construit des artefacts sémantiques latents contrôlés par les relations, dont les variantes instancient des relations complémentaires, nuancées ou contradictoires, et les intègre dans des historiques réalistes utilisateur-agent, obligeant les agents à retrouver des structures relationnelles distribuées lors de requêtes et instructions ultérieures. Le benchmark comprend 1 522 instances d'évaluation réparties sur 10 longs historiques, fondées sur 1 090 ensembles de variantes de mémoire contrôlés par les relations, et couvre à la fois des requêtes liées et non liées à l'utilisateur. En évaluant six systèmes de mémoire autonomes, deux agents de type Claw dotés de modules de mémoire natifs et trois agents de type Claw dotés de modules de mémoire plugin, nous constatons que les systèmes actuels restent faibles en discrimination fine de la mémoire relationnelle. Nous introduisons en outre des protocoles de diagnostic qui révèlent des profils de capacité distincts à travers les étapes de préservation, de récupération et de raisonnement en aval de la mémoire.

English

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.