GateMem: Бенчмаркинг управления памятью в многопринципиальных агентах с общей памятью

Аннотация

Бенчмарки памяти для LLM-агентов в значительной степени предполагают сценарии с одним пользователем, оставляя без должного внимания общих ассистентов для больниц, рабочих мест, кампусов и домохозяйств. В таких развертываниях несколько принципалов записывают данные в общий пул памяти и запрашивают его в разных ролях, объемах и отношениях, поэтому качество памяти требует как управления, так и воспроизведения. Мы представляем GateMem — бенчмарк для агентов с общей памятью, работающих с несколькими принципалами. GateMem совместно оценивает полезность для легитимных долгосрочных запросов с обновлением состояния, контроль доступа через контекстуальные границы авторизации и ориентированное на агента активное забывание после явных запросов на удаление. Он охватывает медицинскую, офисную, образовательную и бытовую сферы, включая многосторонние эпизоды в длинной форме, инкрементальное внесение памяти, скрытые контрольные точки, структурированное оценивание и аннотации утечек. На различных базовых линиях и моделях-основах ни один метод не достигает одновременно высокой полезности, надежного контроля доступа и уверенного забывания. Подсказки с длинным контекстом часто дают наилучший показатель управления при высоких затратах на токены, а методы на основе поиска и внешней памяти снижают затраты, но все еще допускают утечку несанкционированной или удаленной информации. Эти результаты показывают, что современные агенты с памятью остаются далеки от надежного институционального развертывания в общем доступе.

English

Memory benchmarks for LLM agents largely assume single-user settings, leaving shared assistants for hospitals, workplaces, campuses, and households understudied. In these deployments, multiple principals write to a common memory pool and query it under different roles, scopes, and relationships, so memory quality requires governance as well as recall. We introduce GateMem, a benchmark for multi-principal shared-memory agents. GateMem jointly evaluates utility for legitimate long-horizon requests with state updates, access control across contextual authorization boundaries, and agent-facing active forgetting after explicit deletion requests. It spans medical, office, education, and household domains, with long-form multi-party episodes, incremental memory injection, hidden checkpoints, structured judging, and leak-target annotations. Across diverse baselines and backbone models, no method simultaneously achieves strong utility, robust access control, and reliable forgetting. Long-context prompting often yields the best governance score at high token cost, while retrieval-based and external-memory methods reduce cost yet still leak unauthorized or deleted information. These results show current memory agents remain far from reliable shared institutional deployment.