AgentDoG 1.5 : Un cadre d'alignement léger et évolutif pour la sûreté et la sécurité des agents IA

Résumé

Les agents modernes en environnement ouvert tels qu'OpenClaw présentent de puissantes capacités d'exécution inter-environnements, mais introduisent de larges sources de risques de sécurité inédites. Parallèlement, les modèles d'IA avancés de pointe abaissent considérablement les barrières d'attaque, rendant les cadres d'alignement des agents actuels inadéquats pour un déploiement en conditions réelles. Pour faire face à ces menaces émergentes, nous proposons un cadre d'alignement de sécurité des agents léger et évolutif. Plus précisément, nous mettons à jour la taxonomie de sécurité des agents pour prendre en compte les risques émergents des scénarios d'exécution de Codex et OpenClaw. Nous construisons en outre un moteur de données guidé par la taxonomie avec purification par fonction d'influence pour entraîner des variantes légères d'AgentDoG 1.5 (0,8B, 2B, 4B et 8B paramètres) en utilisant seulement environ 1 000 échantillons, atteignant des performances comparables aux modèles propriétaires leaders (par exemple, GPT-5.4). Sur la base d'AgentDoG 1.5, nous construisons un environnement d'entraînement SFT et RL pour la sécurité agentique hautement efficace, qui réduit le surcoût de déploiement dans les environnements de niveau Docker de deux ordres de grandeur. Enfin, nous déployons AgentDoG 1.5 comme garde-fou en ligne sans entraînement pour la modération de sécurité en temps réel. Des résultats expérimentaux approfondis indiquent qu'AgentDoG 1.5 atteint des performances de pointe dans des scénarios agentiques interactifs diversifiés et complexes. Tous les modèles et ensembles de données sont publiés ouvertement.

English

Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.