ChatPaper.aiChatPaper

AgentDoG 1.5: Um Framework Leve e Escalável de Alinhamento para Segurança e Proteção de Agentes de IA

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

May 28, 2026
Autores: Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu
cs.AI

Resumo

Agentes modernos de mundo aberto, como o OpenClaw, exibem capacidades poderosas de execução em múltiplos ambientes, mas introduzem novas e amplas fontes de risco de segurança. Simultaneamente, modelos avançados de inteligência artificial de fronteira reduzem drasticamente as barreiras para ataques, tornando os atuais arcabouços de alinhamento de agentes inadequados para implantação no mundo real. Para enfrentar essas ameaças emergentes, propomos um arcabouço leve e escalável de alinhamento de segurança para agentes. Especificamente, atualizamos a taxonomia de segurança de agentes para acomodar riscos emergentes dos cenários de execução do Codex e do OpenClaw. Construímos ainda um motor de dados orientado por taxonomia com purificação por função de influência para treinar variantes leves do AgentDoG 1.5 (0,8B, 2B, 4B e 8B parâmetros) utilizando apenas cerca de mil amostras, alcançando desempenho comparável a modelos líderes de código fechado (por exemplo, GPT-5.4). Com base no AgentDoG 1.5, construímos um ambiente altamente eficiente de treinamento SFT e RL para segurança de agentes, que reduz o custo de implantação em ambientes no nível Docker em duas ordens de grandeza. Finalmente, implantamos o AgentDoG 1.5 como um guardrail online livre de treinamento para moderação de segurança em tempo real. Resultados experimentais extensivos indicam que o AgentDoG 1.5 alcança desempenho de ponta em cenários interativos de agentes diversos e complexos. Todos os modelos e conjuntos de dados são disponibilizados abertamente.
English
Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.