SubtleMemory: Um Benchmark para Discriminação de Memória Relacional de Granulação Fina em Agentes de IA de Longo Horizonte

Resumo

Assistentes de IA persistentes, como o OpenClaw, acumulam grandes coleções de memórias relacionadas ao longo de interações de longo prazo. À medida que essas memórias crescem, podem se reforçar mutuamente, divergir entre contextos ou entrar em conflito direto, tornando a assistência correta dependente das relações entre memórias, e não da recuperação isolada. Os benchmarks existentes de memória de longo prazo raramente investigam como os agentes preservam e utilizam tais relações durante tarefas subsequentes. Para preencher essa lacuna, apresentamos o SubtleMemory, um benchmark para discriminação relacional de memória em granularidade fina em agentes de IA de longa duração. O SubtleMemory constrói artefatos semânticos latentes controlados por relações, cujas variantes instanciam relações complementares, sutis ou contraditórias, e os insere em históricos realistas de interação usuário-agente, exigindo que os agentes recuperem estruturas relacionais distribuídas durante consultas e instruções posteriores. O benchmark contém 1.522 instâncias de avaliação em 10 longos históricos, fundamentadas em 1.090 conjuntos de variações de memória controlados por relações, abrangendo consultas relacionadas e não relacionadas ao usuário. Avaliando seis sistemas de memória independentes, dois agentes do tipo Claw com módulos de memória nativos e três agentes do tipo Claw com módulos de memória como plugins, constatamos que os sistemas atuais ainda são fracos na discriminação relacional de memória em granularidade fina. Introduzimos ainda protocolos de diagnóstico que revelam perfis de capacidade distintos nas etapas de preservação, recuperação e raciocínio downstream da memória.

English

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.