LiSA: Adaptación de Seguridad Permanente mediante Inducción de Políticas Conservadoras

Resumen

A medida que los agentes de IA pasan de interfaces de chat a sistemas que leen datos privados, invocan herramientas y ejecutan flujos de trabajo en múltiples pasos, las barreras de seguridad se convierten en la última línea de defensa contra daños concretos en el despliegue. En estos entornos, las fallas de las barreras de seguridad ya no son meros errores de calidad de respuesta: pueden filtrar secretos, autorizar acciones inseguras o bloquear trabajo legítimo. Las fallas más difíciles suelen ser contextuales: si una acción es aceptable depende de normas locales de privacidad, políticas organizacionales y expectativas de los usuarios que se resisten a una especificación previa al despliegue. Esto crea una brecha práctica: las barreras de seguridad deben adaptarse a sus propios entornos operativos, pero la retroalimentación del despliegue suele limitarse a fallas reportadas por usuarios que son escasas y ruidosas, y el ajuste fino repetido a menudo resulta poco práctico. Para abordar esta brecha, proponemos LiSA (Adaptación de Seguridad de por Vida), un marco de inducción de políticas conservadoras que mejora una barrera base fija mediante memoria estructurada. LiSA convierte fallas ocasionales en abstracciones de políticas reutilizables para que los reportes escasos puedan generalizarse más allá de casos individuales, añade reglas locales conscientes de conflictos para evitar una generalización excesiva en contextos de etiquetas mixtas, y aplica un control de confianza basado en evidencia mediante un límite inferior posterior, de modo que la reutilización de memoria escale con la evidencia acumulada y no solo con la precisión empírica. En PrivacyLens+, ConFaide+ y AgentHarm, LiSA supera consistentemente a las líneas base basadas en memoria robusta bajo retroalimentación escasa, se mantiene robusto ante retroalimentación ruidosa de usuarios incluso con tasas de inversión de etiquetas del 20%, y empuja la frontera de latencia-rendimiento más allá del escalado del modelo base. En última instancia, LiSA ofrece un camino práctico para asegurar agentes de IA contra la impredecible cola larga de riesgos marginales del mundo real.

English

As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.