Память риска сессии (SRM): Временная авторизация для детерминированных защитных барьеров предварительного выполнения

Аннотация

Детерминированные защитные механизмы предварительного исполнения оценивают, соответствуют ли отдельные действия агентов их назначенным ролям. Хотя эти системы эффективны для авторизации на уровне отдельных действий, они структурно неспособны обнаруживать распределенные атаки, которые разбивают вредоносные намерения на множество по отдельности корректных шагов. В данной статье представлена Модуль Риска Сессии (Session Risk Memory, SRM) — легковесный детерминированный модуль, расширяющий статичные механизмы исполнения авторизацией на уровне траектории поведения. SRM поддерживает компактный семантический центроид, отражающий эволюционирующий поведенческий профиль сессии агента, и накапливает сигнал риска с помощью экспоненциального скользящего среднего от выходных сигналов механизма, нормализованных относительно базового уровня. Модуль работает с тем же векторным семантическим представлением, что и базовый механизм, не требуя дополнительных модельных компонентов, обучения или вероятностного вывода. Мы оцениваем SRM на многозадачном бенчмарке из 80 сессий, содержащих сценарии медленной утечки данных, постепенного повышения привилегий и дрейфа соответствия. Результаты показывают, что ILION+SRM достигает F1 = 1.0000 с 0% ложных срабатываний, по сравнению со статичным ILION (F1 = 0.9756, 5% FPR), при этом обе системы сохраняют 100% уровень обнаружения. Ключевым является то, что SRM устраняет все ложные срабатывания с накладными расходами на один шаг менее 250 микросекунд. Данный фреймворк вводит концептуальное различие между пространственной согласованностью авторизации (оцениваемой на уровне действия) и временной согласованностью авторизации (оцениваемой на уровне траектории), обеспечивая принципиальную основу для обеспечения безопасности на уровне сессии в агентских системах.

English

Deterministic pre-execution safety gates evaluate whether individual agent actions are compatible with their assigned roles. While effective at per-action authorization, these systems are structurally blind to distributed attacks that decompose harmful intent across multiple individually-compliant steps. This paper introduces Session Risk Memory (SRM), a lightweight deterministic module that extends stateless execution gates with trajectory-level authorization. SRM maintains a compact semantic centroid representing the evolving behavioral profile of an agent session and accumulates a risk signal through exponential moving average over baseline-subtracted gate outputs. It operates on the same semantic vector representation as the underlying gate, requiring no additional model components, training, or probabilistic inference. We evaluate SRM on a multi-turn benchmark of 80 sessions containing slow-burn exfiltration, gradual privilege escalation, and compliance drift scenarios. Results show that ILION+SRM achieves F1 = 1.0000 with 0% false positive rate, compared to stateless ILION at F1 = 0.9756 with 5% FPR, while maintaining 100% detection rate for both systems. Critically, SRM eliminates all false positives with a per-turn overhead under 250 microseconds. The framework introduces a conceptual distinction between spatial authorization consistency (evaluated per action) and temporal authorization consistency (evaluated over trajectory), providing a principled basis for session-level safety in agentic systems.

Память риска сессии (SRM): Временная авторизация для детерминированных защитных барьеров предварительного выполнения

Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Аннотация

Support