GateMem: Benchmarking van geheugengovernance in multi-principale agenten met gedeeld geheugen

Samenvatting

Geheugenbenchmarks voor LLM-agenten gaan grotendeels uit van instellingen voor één gebruiker, waardoor gedeelde assistenten voor ziekenhuizen, werkplekken, campussen en huishoudens onderbelicht blijven. In deze implementaties schrijven meerdere principes naar een gemeenschappelijke geheugenpool en bevragen deze onder verschillende rollen, reikwijdtes en relaties, dus geheugenkwaliteit vereist zowel governance als recall. We introduceren GateMem, een benchmark voor agenten met gedeeld geheugen voor meerdere principes. GateMem evalueert gezamenlijk de bruikbaarheid voor legitieme langetermijnverzoeken met statusupdates, toegangscontrole over contextuele autorisatiegrenzen heen, en agentgerichte actieve vergetelheid na expliciete verwijderingsverzoeken. Het bestrijkt medische, kantoor-, onderwijs- en huishoudelijke domeinen, met lange multi-party afleveringen, incrementele geheugeninjectie, verborgen checkpoints, gestructureerde beoordeling en lekdoelannotaties. Bij diverse baselines en backbone-modellen bereikt geen enkele methode tegelijkertijd sterke bruikbaarheid, robuuste toegangscontrole en betrouwbare vergetelheid. Lang-context prompting levert vaak de beste governancescore op tegen hoge tokenkosten, terwijl retrieval-gebaseerde en externe geheugenmethoden de kosten verlagen maar nog steeds ongeautoriseerde of verwijderde informatie lekken. Deze resultaten tonen aan dat huidige geheugenagenten nog ver verwijderd zijn van betrouwbare gedeelde institutionele implementatie.

English

Memory benchmarks for LLM agents largely assume single-user settings, leaving shared assistants for hospitals, workplaces, campuses, and households understudied. In these deployments, multiple principals write to a common memory pool and query it under different roles, scopes, and relationships, so memory quality requires governance as well as recall. We introduce GateMem, a benchmark for multi-principal shared-memory agents. GateMem jointly evaluates utility for legitimate long-horizon requests with state updates, access control across contextual authorization boundaries, and agent-facing active forgetting after explicit deletion requests. It spans medical, office, education, and household domains, with long-form multi-party episodes, incremental memory injection, hidden checkpoints, structured judging, and leak-target annotations. Across diverse baselines and backbone models, no method simultaneously achieves strong utility, robust access control, and reliable forgetting. Long-context prompting often yields the best governance score at high token cost, while retrieval-based and external-memory methods reduce cost yet still leak unauthorized or deleted information. These results show current memory agents remain far from reliable shared institutional deployment.