AgentDoG: Uma Estrutura de Barreira de Diagnóstico para Segurança e Proteção de Agentes de IA

Resumo

O surgimento de agentes de IA introduz desafios complexos de segurança decorrentes do uso autônomo de ferramentas e interações ambientais. Os modelos atuais de proteção carecem de consciência de riscos agentivos e transparência no diagnóstico de ameaças. Para criar um sistema de proteção agentivo que aborde comportamentos de risco complexos e numerosos, propomos primeiro uma taxonomia tridimensional unificada que categoriza ortogonalmente os riscos agentivos por sua fonte (onde), modo de falha (como) e consequência (o quê). Guiados por esta taxonomia estruturada e hierárquica, introduzimos um novo benchmark de segurança agentiva de granularidade fina (ATBench) e uma estrutura de Proteção Diagnóstica para segurança de agentes (AgentDoG). O AgentDoG fornece monitorização contextualizada e detalhada ao longo das trajetórias dos agentes. Crucialmente, o AgentDoG consegue diagnosticar as causas profundas de ações inseguras e de ações aparentemente seguras mas irracionais, oferecendo rastreabilidade e transparência além de classificações binárias para facilitar o alinhamento eficaz de agentes. As variantes do AgentDoG estão disponíveis em três tamanhos (4B, 7B e 8B de parâmetros) nas famílias de modelos Qwen e Llama. Resultados experimentais extensivos demonstram que o AgentDoG alcança desempenho state-of-the-art na moderação de segurança agentiva em cenários interativos diversos e complexos. Todos os modelos e conjuntos de dados são disponibilizados publicamente.

English

The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.