Een trajectgebaseerde veiligheidsaudit van de Clawdbot (OpenClaw)

Samenvatting

Clawdbot is een zelf-gehoste, toolgebruikende persoonlijke AI-agent met een brede actieruimte die lokale uitvoering en web-gemedieerde workflows omvat. Dit roept verhoogde veiligheids- en beveiligingsproblemen op bij onduidelijkheid en tegenstrijdige aansturing. Wij presenteren een trajectgecentreerde evaluatie van Clawdbot over zes risicodimensies. Onze testsuite bemonstert en lichtjes adapteert scenario's uit eerdere agent-veiligheidsbenchmarks (inclusief ATBench en LPS-Bench) en vult deze aan met handmatig ontworpen cases die zijn toegesneden op Clawdbot's tooloppervlak. We loggen complete interactietrajecten (berichten, acties, tool-aanroepargumenten/uitvoer) en beoordelen de veiligheid met zowel een geautomatiseerde trajectbeoordelaar (AgentDoG-Qwen3-4B) als menselijke beoordeling. Over 34 canonieke cases heen constateren we een niet-uniform veiligheidsprofiel: de prestaties zijn over het algemeen consistent bij taken gericht op betrouwbaarheid, terwijl de meeste mislukkingen optreden bij ongespecificeerde intentie, open-einde doelen of ogenschijnlijk onschuldige jailbreak-prompt, waarbij kleine misinterpretaties kunnen escaleren naar toolacties met een grotere impact. We hebben de algemene resultaten aangevuld met representatieve casestudies en de gemeenschappelijke kenmerken van deze cases samengevat, waarbij we de beveiligingskwetsbaarheden en typische faalwijzen analyseerden die Clawdbot in de praktijk geneigd is te triggeren.

English

Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.

Een trajectgebaseerde veiligheidsaudit van de Clawdbot (OpenClaw)

A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Samenvatting

Support