AgentDoG 1.5: Ein leichtgewichtiges und skalierbares Alignment-Framework für die Sicherheit und den Schutz von KI-Agenten

Zusammenfassung

Moderne Open-World-Agenten wie OpenClaw weisen leistungsstarke umgebungsübergreifende Ausführungsfähigkeiten auf, führen jedoch zugleich breite neue Sicherheitsrisikoquellen ein. Gleichzeitig senken fortgeschrittene KI-Grenzmodelle die Angriffsbarrieren drastisch, sodass bestehende Rahmenwerke zur Agentenausrichtung für den Einsatz in der realen Welt unzureichend sind. Um diesen neu auftretenden Bedrohungen zu begegnen, schlagen wir ein leichtgewichtiges und skalierbares Rahmenwerk zur Sicherheitsausrichtung von Agenten vor. Konkret aktualisieren wir die Taxonomie der Agentsicherheit, um emergente Risiken aus den Ausführungsszenarien von Codex und OpenClaw zu berücksichtigen. Des Weiteren bauen wir eine taxonomiegesteuerte Daten-Engine mit Einflussfunktions-Reinigung, um mit nur etwa 1000 Stichproben leichtgewichtige AgentDoG 1.5-Varianten (0,8B, 2B, 4B und 8B Parameter) zu trainieren, die eine vergleichbare Leistung mit führenden Closed-Source-Modellen (z. B. GPT-5.4) erzielen. Basierend auf AgentDoG 1.5 konstruieren wir eine hocheffiziente Trainingsumgebung für agentische Sicherheits-SFT und RL, die den Bereitstellungsaufwand in Docker-Umgebungen um zwei Größenordnungen reduziert. Schließlich setzen wir AgentDoG 1.5 als trainingsfreies Online-Schutzgeländer für die Echtzeit-Sicherheitsmoderation ein. Umfangreiche experimentelle Ergebnisse zeigen, dass AgentDoG 1.5 in vielfältigen und komplexen interaktiven agentischen Szenarien modernste Leistung erzielt. Alle Modelle und Datensätze werden offen veröffentlicht.

English

Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.