AgentDoG 1.5: Легковесный и масштабируемый фреймворк согласования для безопасности и защищённости AI-агентов

Аннотация

Современные агенты открытого мира, такие как OpenClaw, демонстрируют мощные возможности выполнения в кросс-средовых условиях, однако вносят широкий спектр новых источников угроз безопасности. В то же время передовые модели ИИ на границе возможностей кардинально снижают барьеры для проведения атак, что делает существующие подходы к выравниванию агентов непригодными для реального развертывания. Для противодействия этим новым угрозам мы предлагаем легковесную и масштабируемую структуру выравнивания безопасности агентов. В частности, мы обновляем таксономию безопасности агентов с учетом новых рисков, возникающих в сценариях выполнения Codex и OpenClaw. Кроме того, мы создаем управляемый таксономией конвейер данных с очисткой на основе функции влияния для обучения легковесных вариантов AgentDoG 1.5 (с 0,8 млрд, 2 млрд, 4 млрд и 8 млрд параметров) с использованием всего около 1 тыс. примеров, достигая производительности, сопоставимой с ведущими закрытыми моделями (например, GPT-5.4). На основе AgentDoG 1.5 мы разрабатываем высокоэффективную среду агентного обучения SFT и RL, которая снижает накладные расходы на развертывание в средах уровня Docker на два порядка. Наконец, мы разворачиваем AgentDoG 1.5 как обучаемый онлайн-ограничитель безопасности для модерации в реальном времени. Обширные экспериментальные результаты показывают, что AgentDoG 1.5 достигает передовых показателей в разнообразных и сложных интерактивных агентных сценариях. Все модели и наборы данных опубликованы в открытом доступе.

English

Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.