Символические ограничители для предметно-ориентированных агентов: усиленные гарантии безопасности и защищенности без ущерба для функциональности

Аннотация

Искусственные интеллектуальные агенты, взаимодействующие со своей средой через инструменты, открывают возможности для создания мощных приложений. Однако в бизнес-средах с высокими ставками непреднамеренные действия могут привести к неприемлемому ущербу, такому как утечка конфиденциальных данных и финансовые потери. Существующие методы снижения рисков, такие как подходы на основе обучения и нейросетевые защитные механизмы, повышают надежность агентов, но не могут обеспечить гарантий. Мы исследуем символические защитные механизмы как практический путь к обеспечению строгих гарантий безопасности и защищенности ИИ-агентов. Наше трехчастное исследование включает систематический обзор 80 современных бенчмарков безопасности и защищенности агентов для выявления оцениваемых ими политик, анализ того, какие требования политик могут быть гарантированы символическими механизмами, и оценку влияния символических механизмов на безопасность, защищенность и успешность агентов на τ²-Bench, CAR-bench и MedAgentBench. Мы выяснили, что 85% бенчмарков не имеют конкретных политик, полагаясь вместо этого на недостаточно определенные высокоуровневые цели или здравый смысл. Среди специфицированных политик 74% требований могут быть обеспечены символическими защитными механизмами, часто с использованием простых и недорогих методов. Эти механизмы повышают безопасность и защищенность без ущерба для полезности агента. В целом, наши результаты позволяют предположить, что символические защитные механизмы являются практичным и эффективным способом гарантировать выполнение некоторых требований безопасности и защищенности, особенно для предметно-ориентированных ИИ-агентов. Все коды и артефакты доступны по адресу https://github.com/hyn0027/agent-symbolic-guardrails.

English

AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on τ^2-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.

Символические ограничители для предметно-ориентированных агентов: усиленные гарантии безопасности и защищенности без ущерба для функциональности

Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Аннотация

Support