LiSA : Adaptation sécuritaire permanente par induction de politique conservatrice

Résumé

Alors que les agents IA passent d'interfaces de dialogue à des systèmes qui lisent des données privées, appellent des outils et exécutent des flux de travail multi-étapes, les garde-fous deviennent une dernière ligne de défense contre les préjudices concrets liés au déploiement. Dans ces contextes, les défaillances des garde-fous ne sont plus de simples erreurs de qualité de réponse : elles peuvent divulguer des secrets, autoriser des actions dangereuses ou bloquer un travail légitime. Les défaillances les plus difficiles sont souvent contextuelles : la recevabilité d'une action dépend de normes locales de confidentialité, de politiques organisationnelles et d'attentes des utilisateurs qui résistent à une spécification pré-déploiement. Cela crée un fossé pratique : les garde-fous doivent s'adapter à leurs propres environnements opérationnels, mais le retour d'information post-déploiement se limite généralement à des signalements rares et bruités de la part des utilisateurs, et un réglage fin répété est souvent peu pratique. Pour combler ce fossé, nous proposons LiSA (Adaptation Permanente de Sécurité), un cadre d'induction de politiques conservateur qui améliore un garde-fou de base fixe grâce à une mémoire structurée. LiSA transforme les défaillances occasionnelles en abstractions de politiques réutilisables afin que les signalements rares puissent se généraliser au-delà des cas individuels, ajoute des règles locales conscientes des conflits pour éviter la surgénéralisation dans des contextes d'étiquettes mixtes, et applique un filtrage de confiance sensible aux preuves via une borne inférieure postérieure, de sorte que la réutilisation de la mémoire s'adapte à l'accumulation de preuves plutôt qu'à la seule précision empirique. Sur PrivacyLens+, ConFaide+ et AgentHarm, LiSA surpasse systématiquement les bases de référence basées sur la mémoire sous un retour d'information épars, reste robuste sous un retour d'information bruité même à des taux de retournement d'étiquettes de 20 %, et repousse la frontière latence-performance au-delà de la simple mise à l'échelle du modèle de base. En fin de compte, LiSA offre une voie pratique pour sécuriser les agents IA contre la longue traîne imprévisible des risques extrêmes du monde réel.

English

As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.