Garde-fous symboliques pour les agents spécialisés : Renforcer les garanties de sécurité sans compromettre l'utilité

Résumé

Les agents d'IA qui interagissent avec leur environnement par le biais d'outils permettent des applications puissantes, mais dans des contextes commerciaux à haut risque, des actions non intentionnées peuvent causer des préjudices inacceptables, tels que des violations de la vie privée et des pertes financières. Les mesures d'atténuation existantes, comme les méthodes basées sur l'apprentissage et les garde-fous neuronaux, améliorent la fiabilité des agents mais ne peuvent offrir de garanties. Nous étudions les garde-fous symboliques comme une voie pratique vers des garanties solides de sécurité et de sûreté pour les agents d'IA. Notre étude en trois parties comprend un examen systématique de 80 benchmarks de pointe en sécurité et sûreté des agents pour identifier les politiques qu'ils évaluent, une analyse des exigences politiques pouvant être garanties par des garde-fous symboliques, et une évaluation de l'impact de ces garde-fous sur la sécurité, la sûreté et le succès des agents sur τ²-Bench, CAR-bench et MedAgentBench. Nous constatons que 85 % des benchmarks manquent de politiques concrètes, reposant plutôt sur des objectifs de haut niveau sous-spécifiés ou le bon sens. Parmi les politiques spécifiées, 74 % des exigences peuvent être appliquées par des garde-fous symboliques, souvent en utilisant des mécanismes simples et peu coûteux. Ces garde-fous améliorent la sécurité et la sûreté sans sacrifier l'utilité des agents. Globalement, nos résultats suggèrent que les garde-fous symboliques sont un moyen pratique et efficace de garantir certaines exigences de sécurité et de sûreté, en particulier pour les agents d'IA spécialisés. Nous rendons publics tous les codes et artefacts sur https://github.com/hyn0027/agent-symbolic-guardrails.

English

AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on τ^2-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.

Garde-fous symboliques pour les agents spécialisés : Renforcer les garanties de sécurité sans compromettre l'utilité

Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Résumé

Support