ChatPaper.aiChatPaper

AgentDoG 1.5 : Un cadre d'alignement léger et évolutif pour la sûreté et la sécurité des agents IA

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

May 28, 2026
Auteurs: Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu
cs.AI

Résumé

Les agents modernes en environnement ouvert tels qu'OpenClaw présentent de puissantes capacités d'exécution inter-environnements, mais introduisent de larges sources de risques de sécurité inédites. Parallèlement, les modèles d'IA avancés de pointe abaissent considérablement les barrières d'attaque, rendant les cadres d'alignement des agents actuels inadéquats pour un déploiement en conditions réelles. Pour faire face à ces menaces émergentes, nous proposons un cadre d'alignement de sécurité des agents léger et évolutif. Plus précisément, nous mettons à jour la taxonomie de sécurité des agents pour prendre en compte les risques émergents des scénarios d'exécution de Codex et OpenClaw. Nous construisons en outre un moteur de données guidé par la taxonomie avec purification par fonction d'influence pour entraîner des variantes légères d'AgentDoG 1.5 (0,8B, 2B, 4B et 8B paramètres) en utilisant seulement environ 1 000 échantillons, atteignant des performances comparables aux modèles propriétaires leaders (par exemple, GPT-5.4). Sur la base d'AgentDoG 1.5, nous construisons un environnement d'entraînement SFT et RL pour la sécurité agentique hautement efficace, qui réduit le surcoût de déploiement dans les environnements de niveau Docker de deux ordres de grandeur. Enfin, nous déployons AgentDoG 1.5 comme garde-fou en ligne sans entraînement pour la modération de sécurité en temps réel. Des résultats expérimentaux approfondis indiquent qu'AgentDoG 1.5 atteint des performances de pointe dans des scénarios agentiques interactifs diversifiés et complexes. Tous les modèles et ensembles de données sont publiés ouvertement.
English
Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.