Symbolische Leitplanken für domänenspezifische Agenten: Stärkere Sicherheits- und Schutzgarantien ohne Nutzungseinbußen
Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility
April 16, 2026
Autoren: Yining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner
cs.AI
Zusammenfassung
KI-Agenten, die über Werkzeuge mit ihrer Umgebung interagieren, ermöglichen leistungsstarke Anwendungen. In geschäftskritischen Umgebungen können jedoch unbeabsichtigte Aktionen inakzeptable Schäden verursachen, wie Datenschutzverletzungen und finanzielle Verluste. Bestehende Gegenmaßnahmen, wie trainierungsbasierte Methoden und neuronale Schutzkontrollen, verbessern die Zuverlässigkeit von Agenten, können jedoch keine Garantien bieten. Wir untersuchen symbolische Schutzkontrollen als praktischen Weg zur Gewährleistung robuster Sicherheits- und Schutzgarantien für KI-Agenten. Unsere dreiteilige Studie umfasst eine systematische Überprüfung von 80 modernsten Benchmark-Tests für Agentensicherheit, um die von ihnen evaluierten Richtlinien zu identifizieren, eine Analyse, welche Richtlinienanforderungen durch symbolische Schutzkontrollen garantiert werden können, sowie eine Bewertung der Auswirkungen symbolischer Schutzkontrollen auf Sicherheit, Schutz und Agentenerfolg auf τ^2-Bench, CAR-bench und MedAgentBench. Wir stellen fest, dass 85 % der Benchmarks konkrete Richtlinien vermissen lassen und sich stattdessen auf unpräzise übergeordnete Ziele oder Common Sense stützen. Von den spezifizierten Richtlinien können 74 % der Anforderungen durch symbolische Schutzkontrollen durchgesetzt werden, oft mit einfachen, kostengünstigen Mechanismen. Diese Schutzkontrollen verbessern Sicherheit und Schutz, ohne die Nützlichkeit der Agenten zu beeinträchtigen. Insgesamt deuten unsere Ergebnisse darauf hin, dass symbolische Schutzkontrollen eine praktische und effektive Methode zur Garantie bestimmter Sicherheits- und Schutzanforderungen sind, insbesondere für domainspezifische KI-Agenten. Wir veröffentlichen alle Codes und Artefakte unter https://github.com/hyn0027/agent-symbolic-guardrails.
English
AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on τ^2-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.