GateMem: Evaluación comparativa de la gobernanza de la memoria en agentes con memoria compartida multi-principal

Resumen

Los puntos de referencia de memoria para agentes LLM asumen en gran medida entornos de usuario único, dejando poco estudiados los asistentes compartidos para hospitales, lugares de trabajo, campus y hogares. En estos despliegues, múltiples principales escriben en un grupo de memoria común y lo consultan bajo diferentes roles, alcances y relaciones, por lo que la calidad de la memoria requiere tanto gobernanza como recuperación. Presentamos GateMem, un punto de referencia para agentes de memoria compartida con múltiples principales. GateMem evalúa conjuntamente la utilidad para solicitudes legítimas de horizonte largo con actualizaciones de estado, control de acceso a través de límites de autorización contextual y olvido activo orientado al agente después de solicitudes explícitas de eliminación. Abarca los dominios médico, de oficina, educativo y doméstico, con episodios largos de múltiples partes, inyección incremental de memoria, puntos de control ocultos, evaluación estructurada y anotaciones de objetivos de fuga. A través de diversas líneas base y modelos base, ningún método logra simultáneamente una utilidad sólida, un control de acceso robusto y un olvido fiable. El prompting de contexto largo a menudo produce la mejor puntuación de gobernanza a un alto costo de tokens, mientras que los métodos basados en recuperación y memoria externa reducen el costo pero aún filtran información no autorizada o eliminada. Estos resultados muestran que los agentes de memoria actuales siguen lejos de un despliegue institucional compartido fiable.

English

Memory benchmarks for LLM agents largely assume single-user settings, leaving shared assistants for hospitals, workplaces, campuses, and households understudied. In these deployments, multiple principals write to a common memory pool and query it under different roles, scopes, and relationships, so memory quality requires governance as well as recall. We introduce GateMem, a benchmark for multi-principal shared-memory agents. GateMem jointly evaluates utility for legitimate long-horizon requests with state updates, access control across contextual authorization boundaries, and agent-facing active forgetting after explicit deletion requests. It spans medical, office, education, and household domains, with long-form multi-party episodes, incremental memory injection, hidden checkpoints, structured judging, and leak-target annotations. Across diverse baselines and backbone models, no method simultaneously achieves strong utility, robust access control, and reliable forgetting. Long-context prompting often yields the best governance score at high token cost, while retrieval-based and external-memory methods reduce cost yet still leak unauthorized or deleted information. These results show current memory agents remain far from reliable shared institutional deployment.