LiSA: Долгосрочная адаптация безопасности посредством консервативного вывода политики

Аннотация

По мере перехода AI-агентов от чат-интерфейсов к системам, работающим с приватными данными, вызывающим инструменты и выполняющим многошаговые рабочие процессы, защитные барьеры становятся последней линией обороны от конкретных развертываемых угроз. В таких условиях сбои защитных барьеров перестают быть просто ошибками качества ответов: они могут приводить к утечке секретов, санкционированию небезопасных действий или блокировке легитимной работы. Наиболее сложные сбои часто носят контекстуальный характер: приемлемость действия зависит от местных норм конфиденциальности, организационных политик и ожиданий пользователей, которые сопротивляются предварительной спецификации перед развертыванием. Это создает практический разрыв: защитные барьеры должны адаптироваться к собственной операционной среде, однако обратная связь при развертывании обычно ограничена редкими, зашумленными сообщениями о сбоях от пользователей, а повторная тонкая настройка часто непрактична. Для устранения этого разрыва мы предлагаем LiSA (Lifelong Safety Adaptation, пожизненная адаптация безопасности) — консервативную структуру индукции политик, которая улучшает фиксированный базовый защитный барьер с помощью структурированной памяти. LiSA преобразует случайные сбои в многократно используемые абстракции политик, так что редкие отчеты могут обобщаться за пределы отдельных случаев; добавляет правила локального учета конфликтов для предотвращения чрезмерного обобщения в контекстах со смешанными метками; применяет эвиденциальное пороговое управление достоверностью через нижнюю границу апостериорной вероятности, чтобы повторное использование памяти масштабировалось с накопленными свидетельствами, а не только с эмпирической точностью. На наборах данных PrivacyLens+, ConFaide+ и AgentHarm LiSA стабильно превосходит сильные базовые методы, основанные на памяти, в условиях редкой обратной связи; остается устойчивой к зашумленной пользовательской обратной связи даже при 20% уровне переворачивания меток; и сдвигает фронт компромисса между задержкой и производительностью за пределы масштабирования базовой модели. В конечном итоге LiSA предлагает практический путь защиты AI-агентов от непредсказуемого длинного хвоста реальных граничных рисков.

English

As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.