GateMem : Évaluation comparative de la gouvernance de la mémoire dans les agents multi-principaux à mémoire partagée

Résumé

Les benchmarks de mémoire pour les agents LLM reposent en grande partie sur des hypothèses de mono-utilisateur, laissant sous-étudiés les assistants partagés dans les hôpitaux, les lieux de travail, les campus et les foyers. Dans ces déploiements, plusieurs mandants écrivent dans un pool de mémoire commun et l’interrogent sous différents rôles, périmètres et relations, de sorte que la qualité de la mémoire exige à la fois une gouvernance et un rappel. Nous présentons GateMem, un benchmark pour les agents à mémoire partagée multi-principaux. GateMem évalue conjointement l’utilité pour les requêtes légitimes à long horizon avec mises à jour d’état, le contrôle d’accès à travers les limites d’autorisation contextuelles, et l’oubli actif orienté agent après des demandes explicites de suppression. Il couvre les domaines médical, professionnel, éducatif et domestique, avec des épisodes multipartites longs, une injection progressive de mémoire, des points de contrôle cachés, une évaluation structurée et des annotations de cibles de fuite. Parmi diverses bases de référence et modèles de base, aucune méthode n’atteint simultanément une utilité élevée, un contrôle d’accès robuste et un oubli fiable. Les invites à long contexte fournissent souvent le meilleur score de gouvernance à un coût en tokens élevé, tandis que les méthodes basées sur le rappel et la mémoire externe réduisent le coût mais divulguent encore des informations non autorisées ou supprimées. Ces résultats montrent que les agents à mémoire actuels restent loin d’un déploiement institutionnel partagé fiable.

English

Memory benchmarks for LLM agents largely assume single-user settings, leaving shared assistants for hospitals, workplaces, campuses, and households understudied. In these deployments, multiple principals write to a common memory pool and query it under different roles, scopes, and relationships, so memory quality requires governance as well as recall. We introduce GateMem, a benchmark for multi-principal shared-memory agents. GateMem jointly evaluates utility for legitimate long-horizon requests with state updates, access control across contextual authorization boundaries, and agent-facing active forgetting after explicit deletion requests. It spans medical, office, education, and household domains, with long-form multi-party episodes, incremental memory injection, hidden checkpoints, structured judging, and leak-target annotations. Across diverse baselines and backbone models, no method simultaneously achieves strong utility, robust access control, and reliable forgetting. Long-context prompting often yields the best governance score at high token cost, while retrieval-based and external-memory methods reduce cost yet still leak unauthorized or deleted information. These results show current memory agents remain far from reliable shared institutional deployment.