SubtleMemory: Un benchmark para la discriminación de memoria relacional de grano fino en agentes de IA de horizonte largo

Resumen

Los asistentes de IA persistentes, como OpenClaw, acumulan grandes colecciones de recuerdos relacionados a lo largo de interacciones prolongadas. A medida que estos recuerdos crecen, pueden reforzarse mutuamente, divergir entre contextos o entrar en conflicto directo, lo que hace que la asistencia correcta dependa de las relaciones de memoria más que del recuerdo aislado. Los puntos de referencia existentes de memoria a largo plazo rara vez evalúan cómo los agentes preservan y utilizan dichas relaciones durante tareas posteriores. Para abordar esta carencia, presentamos SubtleMemory, un punto de referencia para la discriminación de memoria relacional de grano fino en agentes de IA de larga duración. SubtleMemory construye artefactos semánticos latentes controlados por relación cuyas variantes instancian relaciones complementarias, matizadas o contradictorias, y los incrusta en historiales realistas de usuario-agente, requiriendo que los agentes recuperen estructuras relacionales distribuidas durante consultas e instrucciones posteriores. El punto de referencia contiene 1.522 instancias de evaluación distribuidas en 10 historiales largos, fundamentadas en 1.090 conjuntos de variantes de memoria controlados por relación y que abarcan consultas relacionadas y no relacionadas con el usuario. Al evaluar seis sistemas de memoria independientes, dos agentes tipo Claw con módulos de memoria nativos y tres agentes tipo Claw con módulos de memoria complementarios, encontramos que los sistemas actuales siguen siendo débiles en la discriminación de memoria relacional de grano fino. Además, introducimos protocolos de diagnóstico que revelan perfiles de capacidad distintos en las etapas de preservación, recuperación y razonamiento posterior de la memoria.

English

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.