Audit di Sicurezza Basato sulla Traiettoria del Clawdbot (OpenClaw)

Abstract

Clawdbot è un agente di IA personale auto-ospitato e abile nell'uso di strumenti, dotato di un ampio spazio d'azione che spazia dall'esecuzione locale a flussi di lavoro mediati dal web. Ciò solleva preoccupazioni accentuate in materia di sicurezza e protezione in contesti ambigui o sotto condizionamento avversariale. Presentiamo una valutazione centrata sulle traiettorie di Clawdbot lungo sei dimensioni di rischio. La nostra suite di test campiona e adatta leggermente scenari da benchmark precedenti sulla sicurezza degli agenti (inclusi ATBench e LPS-Bench) e li integra con casi progettati manualmente, specificamente mirati alla superficie strumentale di Clawdbot. Registriamo le traiettorie complete di interazione (messaggi, azioni, argomenti/risultati delle chiamate agli strumenti) e valutiamo la sicurezza utilizzando sia un giudice automatico delle traiettorie (AgentDoG-Qwen3-4B) che una revisione umana. Attraverso 34 casi canonici, emerge un profilo di sicurezza non uniforme: le prestazioni sono generalmente coerenti nei compiti incentrati sull'affidabilità, mentre la maggior parte degli insuccessi si verifica in presenza di intenti sotto-specificati, obiettivi aperti o prompt di jailbreak apparentemente benigni, dove lievi interpretazioni errate possono degenerare in azioni strumentali ad alto impatto. Abbiamo integrato i risultati complessivi con studi di caso rappresentativi e riassunto le caratteristiche comuni di questi casi, analizzando le vulnerabilità di sicurezza e le modalità di errore tipiche che Clawdbot tende a innescare nella pratica.

English

Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.

Audit di Sicurezza Basato sulla Traiettoria del Clawdbot (OpenClaw)

A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Abstract

Support