Barreiras Simbólicas para Agentes de Domínio Específico: Garantias de Segurança Mais Robustas Sem Sacrificar a Utilidade

Resumo

Agentes de IA que interagem com seus ambientes por meio de ferramentas permitem aplicações poderosas, mas em contextos empresariais de alto risco, ações não intencionais podem causar danos inaceitáveis, como violações de privacidade e perdas financeiras. As mitigações existentes, como métodos baseados em treinamento e barreiras neurais, melhoram a confiabilidade do agente, mas não podem fornecer garantias. Estudamos barreiras simbólicas como um caminho prático para obter fortes garantias de segurança e proteção para agentes de IA. Nosso estudo de três partes inclui uma revisão sistemática de 80 benchmarks state-of-the-art de segurança e proteção de agentes para identificar as políticas que eles avaliam, uma análise de quais requisitos de política podem ser garantidos por barreiras simbólicas e uma avaliação de como as barreiras simbólicas afetam a segurança, proteção e sucesso do agente nos benchmarks τ²-Bench, CAR-bench e MedAgentBench. Descobrimos que 85% dos benchmarks carecem de políticas concretas, dependendo, em vez disso, de objetivos de alto nível mal especificados ou de senso comum. Entre as políticas especificadas, 74% dos requisitos de política podem ser aplicados por barreiras simbólicas, frequentemente usando mecanismos simples e de baixo custo. Essas barreiras melhoram a segurança e proteção sem sacrificar a utilidade do agente. No geral, nossos resultados sugerem que as barreiras simbólicas são uma maneira prática e eficaz de garantir alguns requisitos de segurança e proteção, especialmente para agentes de IA específicos de domínio. Disponibilizamos todos os códigos e artefatos em https://github.com/hyn0027/agent-symbolic-guardrails.

English

AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on τ^2-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.

Barreiras Simbólicas para Agentes de Domínio Específico: Garantias de Segurança Mais Robustas Sem Sacrificar a Utilidade

Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Resumo

Support