GateMem: Benchmarking der Speicherverwaltung in Multi-Prinzipal-Agenten mit gemeinsamem Speicher

Zusammenfassung

Memory-Benchmarks für LLM-Agenten gehen weitgehend von Einzelbenutzereinstellungen aus, sodass gemeinsame Assistenten für Krankenhäuser, Arbeitsplätze, Universitätsgelände und Haushalte untererforscht bleiben. In diesen Bereitstellungen schreiben mehrere Akteure in einen gemeinsamen Speicherpool und fragen ihn unter verschiedenen Rollen, Bereichen und Beziehungen ab, weshalb die Speicherqualität neben der Abruffähigkeit auch Governance erfordert. Wir stellen GateMem vor, einen Benchmark für Multi-Akteur-Agenten mit gemeinsamem Speicher. GateMem bewertet gemeinsam den Nutzen für legitime langfristige Anfragen mit Zustandsaktualisierungen, die Zugriffskontrolle über kontextuelle Autorisierungsgrenzen hinweg sowie das agentengerichtete aktive Vergessen nach expliziten Löschungsanfragen. Es umfasst medizinische, Büro-, Bildungs- und Haushaltsbereiche mit langen, mehrparteiischen Episoden, inkrementeller Speichereinspeisung, versteckten Kontrollpunkten, strukturierter Bewertung und Leck-Ziel-Annotationen. Über verschiedene Basislinien und Backbone-Modelle hinweg erreicht keine Methode gleichzeitig starken Nutzen, robuste Zugriffskontrolle und zuverlässiges Vergessen. Langkontext-Prompting erzielt oft die beste Governance-Punktzahl bei hohen Tokenkosten, während abrufbasierte Methoden und Methoden mit externem Speicher die Kosten senken, aber dennoch unbefugte oder gelöschte Informationen preisgeben. Diese Ergebnisse zeigen, dass aktuelle Memory-Agenten noch weit von einer zuverlässigen gemeinsamen institutionellen Bereitstellung entfernt sind.

English

Memory benchmarks for LLM agents largely assume single-user settings, leaving shared assistants for hospitals, workplaces, campuses, and households understudied. In these deployments, multiple principals write to a common memory pool and query it under different roles, scopes, and relationships, so memory quality requires governance as well as recall. We introduce GateMem, a benchmark for multi-principal shared-memory agents. GateMem jointly evaluates utility for legitimate long-horizon requests with state updates, access control across contextual authorization boundaries, and agent-facing active forgetting after explicit deletion requests. It spans medical, office, education, and household domains, with long-form multi-party episodes, incremental memory injection, hidden checkpoints, structured judging, and leak-target annotations. Across diverse baselines and backbone models, no method simultaneously achieves strong utility, robust access control, and reliable forgetting. Long-context prompting often yields the best governance score at high token cost, while retrieval-based and external-memory methods reduce cost yet still leak unauthorized or deleted information. These results show current memory agents remain far from reliable shared institutional deployment.