LiSA: Adaptação de segurança ao longo da vida via indução de política conservadora

Resumo

À medida que os agentes de IA transitam de interfaces de conversação para sistemas que leem dados privados, acionam ferramentas e executam fluxos de trabalho com múltiplas etapas, as salvaguardas tornam-se uma última linha de defesa contra danos concretos de implantação. Nesses contextos, falhas nas salvaguardas não são mais meros erros de qualidade de resposta: elas podem vazar segredos, autorizar ações inseguras ou bloquear trabalho legítimo. As falhas mais difíceis são frequentemente contextuais: se uma ação é aceitável depende de normas locais de privacidade, políticas organizacionais e expectativas dos usuários que resistem à especificação pré-implantação. Isso cria uma lacuna prática: as salvaguardas devem adaptar-se aos seus próprios ambientes operacionais, mas o feedback de implantação é tipicamente limitado a falhas esparsas e ruidosas relatadas por usuários, e o ajuste fino repetido é frequentemente impraticável. Para abordar essa lacuna, propomos o LiSA (Lifelong Safety Adaptation – Adaptação Contínua de Segurança), um arcabouço de indução de políticas conservadora que melhora uma salvaguarda base fixa por meio de memória estruturada. O LiSA converte falhas ocasionais em abstrações de políticas reutilizáveis, de modo que relatos esparsos possam generalizar além de casos individuais; adiciona regras locais cientes de conflitos para evitar generalização excessiva em contextos de rótulos mistos; e aplica um controle de confiança ciente de evidências por meio de um limite inferior posterior, de modo que a reutilização da memória seja escalonada com a evidência acumulada, e não apenas com a precisão empírica. Em PrivacyLens+, ConFaide+ e AgentHarm, o LiSA supera consistentemente fortes linhas de base baseadas em memória sob feedback esparso, permanece robusto sob feedback ruidoso de usuários mesmo com taxas de inversão de rótulos de 20% e amplia a fronteira latência–desempenho além do escalonamento do modelo base. Em última análise, o LiSA oferece um caminho prático para proteger agentes de IA contra a imprevisível cauda longa de riscos extremos do mundo real.

English

As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.