AgentDoG: Een Diagnostisch Veiligheidskader voor de Veiligheid en Beveiliging van AI-agenten

Samenvatting

De opkomst van AI-agenten brengt complexe veiligheids- en beveiligingsuitdagingen met zich mee die voortvloeien uit autonoom toolgebruik en interacties met de omgeving. Huidige guardrail-modellen missen agent-specifiek risicobewustzijn en transparantie in risicodiagnose. Om een agent-specifieke guardrail te introduceren die complex en talrijk risicogedrag dekt, stellen we eerst een uniforme driedimensionale taxonomie voor die agent-risico's orthogonaal categoriseert op basis van hun bron (waar), faalwijze (hoe) en gevolg (wat). Geleid door deze gestructureerde en hiërarchische taxonomie introduceren we een nieuwe fijnmazige agent-veiligheidsbenchmark (ATBench) en een Diagnostisch Guardrail-raamwerk voor agentveiligheid en -beveiliging (AgentDoG). AgentDoG biedt fijnmazige en contextuele monitoring over agenttrajecten heen. Cruciaal is dat AgentDoG de hoofdoorzaken kan diagnosticeren van onveilige acties en schijnbaar veilige maar onredelijke acties, waarbij het herkomst en transparantie biedt die verder gaan binaire labels om effectieve agent-alignment te vergemakkelijken. AgentDoG-varianten zijn beschikbaar in drie formaten (4B, 7B en 8B parameters) binnen de Qwen- en Llama-modelfamilies. Uitgebreide experimentele resultaten tonen aan dat AgentDoG state-of-the-art prestaties bereikt in het modereren van agent-veiligheid in diverse en complexe interactieve scenario's. Alle modellen en datasets zijn openbaar vrijgegeven.

English

The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.

AgentDoG: Een Diagnostisch Veiligheidskader voor de Veiligheid en Beveiliging van AI-agenten

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Samenvatting

Support