Audit de sécurité basé sur la trajectoire du Clawdbot (OpenClaw)
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
February 16, 2026
papers.authors: Tianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang
cs.AI
papers.abstract
Clawdbot est un agent d'IA personnel auto-hébergé utilisant des outils, doté d'un large espace d'action couvrant l'exécution locale et les flux de travail médiés par le web, ce qui soulève des préoccupations accrues en matière de sécurité dans des contextes ambigus ou sous pilotage adverse. Nous présentons une évaluation centrée sur les trajectoires de Clawdbot selon six dimensions de risque. Notre suite de tests échantillonne et adapte légèrement des scénarios issus de benchmarks antérieurs sur la sécurité des agents (notamment ATBench et LPS-Bench) et les complète par des cas conçus manuellement, spécifiquement adaptés à la surface d'outillage de Clawdbot. Nous enregistrons les trajectoires d'interaction complètes (messages, actions, arguments des appels d'outils, sorties) et évaluons la sécurité à l'aide d'un juge automatique de trajectoires (AgentDoG-Qwen3-4B) et d'une revue humaine. Sur 34 cas canoniques, nous observons un profil de sécurité non uniforme : les performances sont généralement cohérentes sur les tâches axées sur la fiabilité, tandis que la plupart des échecs surviennent face à une intention sous-spécifiée, des objectifs ouverts ou des invites d'échappement (jailbreak) apparemment bénignes, où des interprétations erronées mineures peuvent dégénérer en actions d'outil à impact plus élevé. Nous avons complété les résultats globaux par des études de cas représentatives et résumé les points communs de ces cas, analysant les vulnérabilités de sécurité et les modes de défaillance typiques que Clawdbot tend à déclencher en pratique.
English
Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.