ChatPaper.aiChatPaper

AgentDoG: Ein diagnostisches Sicherheitsrahmenwerk für die Sicherheit und Absicherung von KI-Agenten

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

January 26, 2026
papers.authors: Dongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu
cs.AI

papers.abstract

Der Aufstieg von KI-Agenten bringt komplexe Sicherheitsherausforderungen mit sich, die sich aus autonomer Werkzeugnutzung und Umgebungsinteraktionen ergeben. Bestehende Schutzmodelle verfügen weder über agentenbezogenes Risikobewusstsein noch über Transparenz in der Risikodiagnose. Um eine agentische Schutzbarriere zu etablieren, die komplexes und zahlreiches Risikoverhalten abdeckt, schlagen wir zunächst eine einheitliche dreidimensionale Taxonomie vor, die agentische Risiken orthogonal nach ihrer Quelle (Wo), ihrem Fehlermodus (Wie) und ihren Konsequenzen (Was) kategorisiert. Angeleitet durch diese strukturierte und hierarchische Taxonomie führen wir einen neuen feingranularen Sicherheitsbenchmark für Agenten (ATBench) sowie einen Diagnose-Rahmen für Agentensicherheit (AgentDoG) ein. AgentDoG ermöglicht eine kontextsensitive Überwachung entlang gesamter Agenten-Trajektorien. Entscheidend ist, dass AgentDoG sowohl die Ursachen unsicherer Handlungen als auch scheinbar sicherer aber unlogischer Aktionen diagnostizieren kann – durch Nachvollziehbarkeit und Transparenz, die über binäre Klassifikationen hinausgehen und eine effektive Agenten-Ausrichtung unterstützen. AgentDoG-Varianten stehen in drei Größen (4B, 7B und 8B Parameter) innerhalb der Qwen- und Llama-Modellfamilien zur Verfügung. Umfangreiche Experimente belegen, dass AgentDoG state-of-the-art Leistung in der agentischen Sicherheitsmoderation in diversen und komplexen Interaktionsszenarien erreicht. Alle Modelle und Datensätze sind öffentlich verfügbar.
English
The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.
PDF606January 29, 2026