AgentDoG : Un cadre de garde-fous diagnostiques pour la sécurité et la sûreté des agents IA
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
January 26, 2026
papers.authors: Dongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu
cs.AI
papers.abstract
L'émergence des agents IA introduit des défis complexes de sécurité et de sûreté découlant de l'utilisation autonome d'outils et des interactions environnementales. Les modèles de garde-fous actuels manquent de conscience du risque agentique et de transparence dans le diagnostic des risques. Pour introduire un garde-fou agentique couvrant des comportements risqués complexes et nombreux, nous proposons d'abord une taxonomie unifiée tridimensionnelle qui catégorise orthogonalement les risques agentiques par leur source (où), leur mode de défaillance (comment) et leur conséquence (quoi). Guidé par cette taxonomie structurée et hiérarchique, nous présentons un nouveau benchmark de sécurité agentique à granularité fine (ATBench) et un cadre de Garde-fou Diagnostique pour la sécurité et la sûreté des agents (AgentDoG). AgentDoG assure une surveillance contextuelle et fine sur l'ensemble des trajectoires des agents. Plus crucialement, AgentDoG peut diagnostiquer les causes racines des actions non sécuritaires et des actions apparemment sûres mais déraisonnables, offrant une traçabilité et une transparence dépassant les étiquettes binaires pour faciliter un alignement efficace des agents. Les variantes d'AgentDoG sont disponibles en trois tailles (4B, 7B et 8B de paramètres) au sein des familles de modèles Qwen et Llama. Des résultats expérimentaux approfondis démontrent qu'AgentDoG atteint des performances de pointe en modération de la sécurité agentique dans des scénarios interactifs diversifiés et complexes. Tous les modèles et jeux de données sont librement accessibles.
English
The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.