LiSA: Lebenslange Sicherheitsanpassung durch konservative Politikinduktion

Zusammenfassung

Während KI-Agenten von Chat-Schnittstellen zu Systemen übergehen, die private Daten lesen, Werkzeuge aufrufen und mehrstufige Arbeitsabläufe ausführen, werden Schutzmechanismen zur letzten Verteidigungslinie gegen konkrete Einsatzrisiken. In diesen Umgebungen sind Fehler der Schutzmechanismen nicht mehr bloße Antwortqualitätsfehler: Sie können Geheimnisse preisgeben, unsichere Aktionen autorisieren oder legitime Arbeit blockieren. Die schwierigsten Fehler sind oft kontextabhängig: Ob eine Aktion akzeptabel ist, hängt von lokalen Datenschutznormen, Organisationsrichtlinien und Nutzererwartungen ab, die sich einer vor dem Einsatz festgelegten Spezifikation widersetzen. Dies schafft eine praktische Lücke: Schutzmechanismen müssen sich an ihre eigene Betriebsumgebung anpassen, doch das Feedback aus dem Einsatz ist typischerweise auf spärliche, verrauschte, von Nutzern gemeldete Fehler beschränkt, und wiederholtes Feintuning ist oft unpraktikabel. Um diese Lücke zu schließen, schlagen wir LiSA (Lifelong Safety Adaptation) vor, ein konservatives Policy-Induktionsframework, das eine feste Basis-Schutzvorrichtung durch strukturiertes Gedächtnis verbessert. LiSA wandelt gelegentliche Fehler in wiederverwendbare Policy-Abstraktionen um, sodass spärliche Berichte über Einzelfälle hinaus verallgemeinern können, fügt konfliktbewusste lokale Regeln hinzu, um Überverallgemeinerung in gemischten Kontexten zu verhindern, und wendet eine evidenzbewusste Konfidenzsteuerung über eine untere A-posteriori-Schranke an, sodass die Gedächtnisnutzung mit der akkumulierten Evidenz skaliert, nicht allein mit der empirischen Genauigkeit. Über PrivacyLens+, ConFaide+ und AgentHarm hinweg übertrifft LiSA bei spärlichem Feedback durchgängig starke gedächtnisbasierte Basislinien, bleibt auch bei verrauschtem Nutzerfeedback mit Label-Flip-Raten von bis zu 20 % robust und verschiebt die Latenz-Performance-Grenze über das reine Backbone-Modell-Scaling hinaus. Letztlich bietet LiSA einen praktischen Weg, um KI-Agenten gegen den unvorhersehbaren langen Schwanz realweltlicher Randrisiken abzusichern.

English

As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.