SubtleMemory: бенчмарк для мелкозернистой дискриминации реляционной памяти в долгосрочных ИИ-агентах

Аннотация

Постоянно действующие ИИ-ассистенты, такие как OpenClaw, накапливают обширные коллекции связанных воспоминаний в ходе долгосрочных взаимодействий. По мере роста этих воспоминаний они могут усиливать друг друга, расходиться в зависимости от контекста или вступать в прямое противоречие, в результате чего корректная помощь оказывается зависимой от отношений между воспоминаниями, а не от их изолированного извлечения. Существующие тесты для долговременной памяти редко проверяют, как агенты сохраняют и используют такие отношения при выполнении последующих задач. Для заполнения этого пробела мы представляем SubtleMemory — тестовый набор для тонкой дискриминации реляционной памяти в долгоживущих ИИ-агентах. SubtleMemory создает контролируемые по реляционным связям латентные семантические артефакты, варианты которых реализуют взаимодополняющие, нюансированные или противоречивые отношения, и встраивает их в реалистичные истории взаимодействия пользователя с агентом, требуя от агента восстановления распределенных реляционных структур при последующих запросах и инструкциях. Тестовый набор содержит 1 522 оценочных примера, распределенных по 10 длинным историям, основанным на 1 090 контролируемых по реляционным связям наборах вариантов воспоминаний, и охватывает запросы, связанные и не связанные с пользователем. Оценивая шесть автономных систем памяти, два агента кланового типа с встроенными модулями памяти и три агента кланового типа с подключаемыми модулями памяти, мы обнаруживаем, что современные системы остаются слабыми в области тонкой дискриминации реляционной памяти. Мы также вводим диагностические протоколы, выявляющие различные профили способностей на этапах сохранения памяти, извлечения и последующих рассуждений.

English

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.