ChatPaper.aiChatPaper

AgentDoG: AIエージェントの安全性とセキュリティのための診断ガードレイルフレームワーク

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

January 26, 2026
著者: Dongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu
cs.AI

要旨

AIエージェントの台頭は、自律的なツール利用と環境相互作用に起因する複雑な安全性・セキュリティ課題をもたらしています。現在のガードレイルモデルは、エージェント特有のリスク認識とリスク診断の透明性を欠いています。複雑で多岐にわたる危険な行動を網羅するエージェント向けガードレイルを実現するため、我々はまず、リスクの発生源(どこで)、故障モード(どのように)、結果(何が)という3次元で直交的に分類する統一的な分類体系を提案します。この構造化された階層的分類体系に基づき、新たな細粒度のエージェント安全性ベンチマーク(ATBench)と、エージェントの安全性・セキュリティのための診断型ガードレイルフレームワーク(AgentDoG)を導入します。AgentDoGはエージェントの行動軌跡にわたる細粒度で文脈依存的な監視を提供します。さらに重要なのは、AgentDoGが安全でない行動と、一見安全だが不合理な行動の根本原因を診断できる点であり、効果的なエージェントアライメントを促進するため、二値ラベルを超えた発生経路と透明性を提供します。AgentDoGのバリアントは、QwenおよびLlamaモデルファミリーにわたり、3つのサイズ(4B、7B、8Bパラメータ)で利用可能です。大規模な実験結果により、AgentDoGが多様で複雑な対話シナリオにおけるエージェント安全性モデレーションで最先端の性能を達成することが実証されています。全てのモデルとデータセットは公開されています。
English
The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.
PDF606January 29, 2026