AgentDoG: AI 에이전트 안전성과 보안을 위한 진단형 가드레일 프레임워크
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
January 26, 2026
저자: Dongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu
cs.AI
초록
AI 에이전트의 부상은 자율적 도구 사용과 환경 상호작용으로 인한 복잡한 안전 및 보안 과제를 제기합니다. 기존 가드레일 모델은 에이전트 위험 인식과 위험 진단의 투명성이 부족합니다. 복잡하고 다양한 위험 행위를 포괄하는 에이전트 가드레일을 도입하기 위해, 우리는 먼저 위험의 근원(where), 실패 모드(how), 결과(what)에 따라 에이전트 위험을 직교적으로 분류하는 통합 3차원 분류 체계를 제안합니다. 이 체계적이고 계층적인 분류 체계를 바탕으로, 우리는 새로운 세분화된 에이전트 안전 벤치마크(ATBench)와 에이전트 안전 및 보안을 위한 진단형 가드레일 프레임워크(AgentDoG)를 소개합니다. AgentDoG는 에이전트 행동 궤적 전반에 걸쳐 세분화되고 맥락적인 모니터링을 제공합니다. 더욱 중요하게, AgentDoG는 안전하지 않은 행동과 겉보기에 안전하지만 비합리적인 행동의 근본 원인을 진단하여, 이진 분류 레이블을 넘어 소스 추적과 투명성을 제공함으로써 효과적인 에이전트 정렬을 용이하게 합니다. AgentDoG 변형 모델은 Qwen과 Llama 모델 패밀리에서 3가지 크기(4B, 7B, 8B 매개변수)로 이용 가능합니다. 광범위한 실험 결과는 AgentDoG가 다양하고 복잡한 상호작용 시나리오에서 에이전트 안전 조정 분야 최첨단 성능을 달성함을 입증합니다. 모든 모델과 데이터셋은 공개되었습니다.
English
The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.