AgentDoG 1.5: Легковесный и масштабируемый фреймворк согласования для безопасности и защищённости AI-агентов
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
May 28, 2026
Авторы: Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu
cs.AI
Аннотация
Современные агенты открытого мира, такие как OpenClaw, демонстрируют мощные возможности выполнения в кросс-средовых условиях, однако вносят широкий спектр новых источников угроз безопасности. В то же время передовые модели ИИ на границе возможностей кардинально снижают барьеры для проведения атак, что делает существующие подходы к выравниванию агентов непригодными для реального развертывания. Для противодействия этим новым угрозам мы предлагаем легковесную и масштабируемую структуру выравнивания безопасности агентов. В частности, мы обновляем таксономию безопасности агентов с учетом новых рисков, возникающих в сценариях выполнения Codex и OpenClaw. Кроме того, мы создаем управляемый таксономией конвейер данных с очисткой на основе функции влияния для обучения легковесных вариантов AgentDoG 1.5 (с 0,8 млрд, 2 млрд, 4 млрд и 8 млрд параметров) с использованием всего около 1 тыс. примеров, достигая производительности, сопоставимой с ведущими закрытыми моделями (например, GPT-5.4). На основе AgentDoG 1.5 мы разрабатываем высокоэффективную среду агентного обучения SFT и RL, которая снижает накладные расходы на развертывание в средах уровня Docker на два порядка. Наконец, мы разворачиваем AgentDoG 1.5 как обучаемый онлайн-ограничитель безопасности для модерации в реальном времени. Обширные экспериментальные результаты показывают, что AgentDoG 1.5 достигает передовых показателей в разнообразных и сложных интерактивных агентных сценариях. Все модели и наборы данных опубликованы в открытом доступе.
English
Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.