AgentDoG 1.5: Um Framework Leve e Escalável de Alinhamento para Segurança e Proteção de Agentes de IA

Resumo

Agentes modernos de mundo aberto, como o OpenClaw, exibem capacidades poderosas de execução em múltiplos ambientes, mas introduzem novas e amplas fontes de risco de segurança. Simultaneamente, modelos avançados de inteligência artificial de fronteira reduzem drasticamente as barreiras para ataques, tornando os atuais arcabouços de alinhamento de agentes inadequados para implantação no mundo real. Para enfrentar essas ameaças emergentes, propomos um arcabouço leve e escalável de alinhamento de segurança para agentes. Especificamente, atualizamos a taxonomia de segurança de agentes para acomodar riscos emergentes dos cenários de execução do Codex e do OpenClaw. Construímos ainda um motor de dados orientado por taxonomia com purificação por função de influência para treinar variantes leves do AgentDoG 1.5 (0,8B, 2B, 4B e 8B parâmetros) utilizando apenas cerca de mil amostras, alcançando desempenho comparável a modelos líderes de código fechado (por exemplo, GPT-5.4). Com base no AgentDoG 1.5, construímos um ambiente altamente eficiente de treinamento SFT e RL para segurança de agentes, que reduz o custo de implantação em ambientes no nível Docker em duas ordens de grandeza. Finalmente, implantamos o AgentDoG 1.5 como um guardrail online livre de treinamento para moderação de segurança em tempo real. Resultados experimentais extensivos indicam que o AgentDoG 1.5 alcança desempenho de ponta em cenários interativos de agentes diversos e complexos. Todos os modelos e conjuntos de dados são disponibilizados abertamente.

English

Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.