LiSA: Levenslange Veiligheidsaanpassing via Conservatieve Beleidsinductie

Samenvatting

Naarmate AI-agenten verschuiven van chatinterfaces naar systemen die privégegevens uitlezen, tools aanroepen en meerstapsprocessen uitvoeren, worden veiligheidsbarrières een laatste verdedigingslinie tegen concrete implementatieschade. In deze omgevingen zijn falende barrières niet langer louter fouten in de antwoordkwaliteit: ze kunnen geheimen lekken, onveilige acties autoriseren of legitiem werk blokkeren. De moeilijkste fouten zijn vaak contextueel: of een actie aanvaardbaar is, hangt af van lokale privacynormen, organisatiebeleid en gebruikersverwachtingen die zich verzetten tegen specificatie vóór implementatie. Dit creëert een praktische kloof: barrières moeten zich aanpassen aan hun eigen operationele omgeving, maar feedback tijdens implementatie is doorgaans beperkt tot schaarse, ruisrijke door gebruikers gemelde fouten, en herhaalde fijnafstemming is vaak onpraktisch. Om deze kloof te overbruggen, stellen we LiSA (Lifelong Safety Adaptation) voor, een conservatief beleidsinductiekader dat een vaste basisbarrière verbetert via gestructureerd geheugen. LiSA zet incidentele fouten om in herbruikbare beleidsabstracties zodat schaarse meldingen kunnen generaliseren voorbij individuele gevallen, voegt conflictbewuste lokale regels toe om overgeneralisatie in contexten met gemengde labels te voorkomen, en past bewijsware vertrouwensfiltering toe via een posterieure ondergrens, zodat geheugenhergebruik schaalt met opgehoopt bewijs in plaats van alleen empirische nauwkeurigheid. Over PrivacyLens+, ConFaide+ en AgentHarm heen presteert LiSA consequent beter dan sterke geheugen-gebaseerde basislijnen onder schaarse feedback, blijft robuust onder ruisrijke gebruikersfeedback, zelfs bij 20% label-omkering, en verlegt de latentie-prestatiegrens voorbij die van de ruggengraatmodelschaling. Uiteindelijk biedt LiSA een praktische weg om AI-agenten te beveiligen tegen de onvoorspelbare lange staart van reële randrisico's.

English

As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.