AgentDoG: Un Quadro di Guardrail Diagnostico per la Sicurezza e la Protezione degli Agenti IA

Abstract

L'ascesa degli agenti di IA introduce complesse sfide di sicurezza e protezione derivanti dall'uso autonomo di strumenti e dalle interazioni ambientali. Gli attuali modelli di guardrail mancano di consapevolezza del rischio agentico e di trasparenza nella diagnosi del rischio. Per introdurre un guardrail agentico che copra comportamenti rischiosi complessi e numerosi, proponiamo innanzitutto una tassonomia tridimensionale unificata che categorizza ortogonalmente i rischi agentici in base alla loro fonte (dove), modalità di fallimento (come) e conseguenza (cosa). Guidati da questa tassonomia strutturata e gerarchica, introduciamo un nuovo benchmark di sicurezza agentica granulare (ATBench) e un framework di Guardrail Diagnostico per la sicurezza e protezione degli agenti (AgentDoG). AgentDoG fornisce un monitoraggio granulare e contestuale lungo le traiettorie degli agenti. Ancora più crucialmente, AgentDoG è in grado di diagnosticare le cause profonde delle azioni non sicure e delle azioni apparentemente sicure ma irragionevoli, offrendo provenienza e trasparenza oltre le etichette binarie per facilitare un efficace allineamento degli agenti. Le varianti di AgentDoG sono disponibili in tre dimensioni (4B, 7B e 8B parametri) tra le famiglie di modelli Qwen e Llama. I risultati sperimentali estensivi dimostrano che AgentDoG raggiunge prestazioni all'avanguardia nella moderazione della sicurezza agentica in scenari interattivi diversificati e complessi. Tutti i modelli e i dataset sono rilasciati apertamente.

English

The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.

AgentDoG: Un Quadro di Guardrail Diagnostico per la Sicurezza e la Protezione degli Agenti IA

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Abstract

Support