ChatPaper.aiChatPaper

AgentDoG: Un Marco de Barreras de Diagnóstico para la Seguridad y Protección de Agentes de IA

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

January 26, 2026
Autores: Dongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu
cs.AI

Resumen

El auge de los agentes de IA introduce complejos desafíos de seguridad y protección derivados del uso autónomo de herramientas y las interacciones con el entorno. Los modelos de salvaguardas actuales carecen de conciencia del riesgo agencial y de transparencia en el diagnóstico de riesgos. Para introducir una salvaguardia agencial que cubra comportamientos riesgosos complejos y numerosos, primero proponemos una taxonomía unificada tridimensional que categoriza ortogonalmente los riesgos agénicos por su fuente (dónde), modo de fallo (cómo) y consecuencia (qué). Guiados por esta taxonomía estructurada y jerárquica, presentamos un nuevo benchmark de seguridad agencial de grano fino (ATBench) y un marco de Salvaguardia Diagnóstica para la seguridad y protección de agentes (AgentDoG). AgentDoG proporciona una monitorización contextual y detallada a lo largo de las trayectorias de los agentes. Más crucialmente, AgentDoG puede diagnosticar las causas fundamentales de acciones inseguras y de acciones aparentemente seguras pero irrazonables, ofreciendo trazabilidad y transparencia más allá de las etiquetas binarias para facilitar una alineación efectiva de los agentes. Las variantes de AgentDoG están disponibles en tres tamaños (4B, 7B y 8B de parámetros) en las familias de modelos Qwen y Llama. Resultados experimentales exhaustivos demuestran que AgentDoG logra un rendimiento de vanguardia en la moderación de seguridad agencial en escenarios interactivos diversos y complejos. Todos los modelos y conjuntos de datos se han liberado abiertamente.
English
The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.
PDF606January 29, 2026