Sitzungsrisikogedächtnis (SRM): Temporale Autorisierung für deterministische Vorausführungs-Sicherheitsschleusen

Zusammenfassung

Deterministische Pre-Execution-Sicherheitsgates bewerten, ob einzelne Agentenaktionen mit ihren zugewiesenen Rollen vereinbar sind. Obwohl sie effektiv für die Autorisierung pro Aktion sind, sind diese Systeme strukturell blind für verteilte Angriffe, die schädliche Absichten über mehrere einzeln konforme Schritte zerlegen. Dieses Papier stellt Session Risk Memory (SRM) vor, ein leichtgewichtiges deterministisches Modul, das zustandslose Ausführungsgates um trajektorienbasierte Autorisierung erweitert. SRM verwaltet einen kompakten semantischen Schwerpunkt, der das sich entwickelnde Verhaltensprofil einer Agentensitzung repräsentiert, und akkumuliert ein Risikosignal durch exponentiell gleitenden Durchschnitt über baseline-subtrahierte Gate-Outputs. Es arbeitet mit der gleichen semantischen Vektordarstellung wie das zugrundeliegende Gate, erfordert keine zusätzlichen Modellelemente, Training oder probabilistische Inferenz. Wir evaluieren SRM an einem Multi-Turn-Benchmark mit 80 Sitzungen, die Slow-Burn-Exfiltration, graduelle Rechteausweitung und Compliance-Drift-Szenarien enthalten. Die Ergebnisse zeigen, dass ILION+SRM einen F1 = 1,0000 mit 0% False-Positive-Rate erreicht, verglichen mit zustandslosem ILION bei F1 = 0,9756 mit 5% FPR, bei gleichbleibender 100% Erkennungsrate für beide Systeme. Entscheidend ist, dass SRM alle False Positives eliminiert, mit einem Overhead pro Turn von unter 250 Mikrosekunden. Das Framework führt eine konzeptionelle Unterscheidung zwischen räumlicher Autorisierungskonsistenz (pro Aktion bewertet) und temporaler Autorisierungskonsistenz (über die Trajektorie bewertet) ein und bietet so eine prinzipienbasierte Grundlage für die Sitzungssicherheit in agentenbasierten Systemen.

English

Deterministic pre-execution safety gates evaluate whether individual agent actions are compatible with their assigned roles. While effective at per-action authorization, these systems are structurally blind to distributed attacks that decompose harmful intent across multiple individually-compliant steps. This paper introduces Session Risk Memory (SRM), a lightweight deterministic module that extends stateless execution gates with trajectory-level authorization. SRM maintains a compact semantic centroid representing the evolving behavioral profile of an agent session and accumulates a risk signal through exponential moving average over baseline-subtracted gate outputs. It operates on the same semantic vector representation as the underlying gate, requiring no additional model components, training, or probabilistic inference. We evaluate SRM on a multi-turn benchmark of 80 sessions containing slow-burn exfiltration, gradual privilege escalation, and compliance drift scenarios. Results show that ILION+SRM achieves F1 = 1.0000 with 0% false positive rate, compared to stateless ILION at F1 = 0.9756 with 5% FPR, while maintaining 100% detection rate for both systems. Critically, SRM eliminates all false positives with a per-turn overhead under 250 microseconds. The framework introduces a conceptual distinction between spatial authorization consistency (evaluated per action) and temporal authorization consistency (evaluated over trajectory), providing a principled basis for session-level safety in agentic systems.

Sitzungsrisikogedächtnis (SRM): Temporale Autorisierung für deterministische Vorausführungs-Sicherheitsschleusen

Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Zusammenfassung

Support