Guardrail Simbolici per Agenti a Dominio Specifico: Maggiore Sicurezza e Garanzie di Protezione Senza Compromettere l'Utilità

Abstract

Gli agenti di intelligenza artificiale che interagiscono con il propri ambienti attraverso strumenti abilitano applicazioni potenti, ma in contesti aziendali ad alto rischio, azioni non intenzionali possono causare danni inaccettabili, come violazioni della privacy e perdite finanziarie. Le mitigazioni esistenti, come i metodi basati sull'addestramento e le barriere neurali di sicurezza, migliorano l'affidabilità degli agenti ma non possono fornire garanzie. Studiamo le barriere simboliche di sicurezza come un percorso pratico verso garanzie solide di sicurezza e protezione per gli agenti di IA. Il nostro studio tripartito include una revisione sistematica di 80 benchmark all'avanguardia per la sicurezza degli agenti per identificare le politiche che valutano, un'analisi di quali requisiti politici possono essere garantiti da barriere simboliche e una valutazione di come queste influenzino sicurezza, protezione e successo dell'agente su τ^2-Bench, CAR-bench e MedAgentBench. Rileviamo che l'85% dei benchmark manca di politiche concrete, basandosi invece su obiettivi di alto livello non specificati o sul senso comune. Tra le politiche specificate, il 74% dei requisiti può essere applicato da barriere simboliche, spesso utilizzando meccanismi semplici e a basso costo. Queste barriere migliorano sicurezza e protezione senza sacrificare l'utilità dell'agente. Nel complesso, i nostri risultati suggeriscono che le barriere simboliche di sicurezza sono un modo pratico ed efficace per garantire alcuni requisiti di sicurezza e protezione, specialmente per agenti di IA dominio-specifici. Rilasciamo tutti i codici e gli artefatti su https://github.com/hyn0027/agent-symbolic-guardrails.

English

AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on τ^2-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.

Guardrail Simbolici per Agenti a Dominio Specifico: Maggiore Sicurezza e Garanzie di Protezione Senza Compromettere l'Utilità

Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Abstract

Support