AgentDoG 1.5: Un marco de alineación ligero y escalable para la seguridad y protección de agentes de IA

Resumen

Los agentes modernos de mundo abierto, como OpenClaw, exhiben potentes capacidades de ejecución entre entornos, pero introducen nuevas y amplias fuentes de riesgo de seguridad. Mientras tanto, los modelos avanzados de IA de frontera reducen drásticamente las barreras de ataque, dejando los marcos actuales de alineación de agentes inadecuados para el despliegue en el mundo real. Para abordar estas amenazas emergentes, proponemos un marco de alineación de seguridad de agentes ligero y escalable. Específicamente, actualizamos la taxonomía de seguridad de agentes para adaptarnos a los riesgos emergentes de los escenarios de ejecución de Codex y OpenClaw. Además, construimos un motor de datos guiado por taxonomía con purificación de función de influencia para entrenar variantes ligeras de AgentDoG 1.5 (con parámetros de 0,8B, 2B, 4B y 8B) utilizando solo alrededor de 1k muestras, logrando un rendimiento comparable al de los modelos cerrados líderes (por ejemplo, GPT-5.4). Basándonos en AgentDoG 1.5, construimos un entorno de entrenamiento de SFT y RL de seguridad para agentes altamente eficiente, que reduce la sobrecarga de despliegue en entornos a nivel de Docker en dos órdenes de magnitud. Finalmente, desplegamos AgentDoG 1.5 como una barrera de seguridad en línea sin entrenamiento para la moderación de seguridad en tiempo real. Resultados experimentales extensos indican que AgentDoG 1.5 logra un rendimiento de última generación en escenarios de agentes interactivos diversos y complejos. Todos los modelos y conjuntos de datos se publican abiertamente.

English

Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.