Barreras Simbólicas para Agentes Específicos de Dominio: Garantías de Seguridad y Protección Más Robustas Sin Sacrificar la Utilidad

Resumen

Los agentes de IA que interactúan con su entorno mediante herramientas permiten aplicaciones potentes, pero en entornos empresariales de alto riesgo, las acciones no intencionadas pueden causar daños inaceptables, como violaciones de la privacidad y pérdidas financieras. Las mitigaciones existentes, como los métodos basados en entrenamiento y las barreras de protección neuronales, mejoran la fiabilidad de los agentes pero no pueden ofrecer garantías. Estudiamos las barreras de protección simbólicas como una vía práctica para lograr garantías sólidas de seguridad y protección para los agentes de IA. Nuestro estudio de tres partes incluye una revisión sistemática de 80 benchmarks de seguridad y protección de agentes de última generación para identificar las políticas que evalúan, un análisis de qué requisitos de política pueden garantizarse mediante barreras simbólicas, y una evaluación de cómo estas barreras afectan a la seguridad, protección y éxito del agente en τ²-Bench, CAR-bench y MedAgentBench. Hallamos que el 85% de los benchmarks carecen de políticas concretas, basándose en cambio en objetivos de alto nivel mal definidos o en el sentido común. Entre las políticas especificadas, el 74% de los requisitos pueden aplicarse mediante barreras simbólicas, a menudo utilizando mecanismos simples y de bajo coste. Estas barreras mejoran la seguridad y protección sin sacrificar la utilidad del agente. En general, nuestros resultados sugieren que las barreras de protección simbólicas son una forma práctica y eficaz de garantizar algunos requisitos de seguridad y protección, especialmente para agentes de IA específicos de dominio. Publicamos todos los códigos y artefactos en https://github.com/hyn0027/agent-symbolic-guardrails.

English

AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on τ^2-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.

Barreras Simbólicas para Agentes Específicos de Dominio: Garantías de Seguridad y Protección Más Robustas Sin Sacrificar la Utilidad

Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Resumen

Support