Il tuo Agente, la loro Risorsa: Un'Analisi della Sicurezza nel Mondo Reale di OpenClaw

Abstract

OpenClaw, l'agente IA personale più diffuso all'inizio del 2026, opera con accesso completo al sistema locale e si integra con servizi sensibili come Gmail, Stripe e il filesystem. Sebbene questi ampi privilegi consentano alti livelli di automazione e una potente personalizzazione, espongono anche una superficie di attacco sostanziale che le valutazioni esistenti in ambiente sandbox non riescono a cogliere. Per colmare questa lacuna, presentiamo la prima valutazione di sicurezza in scenari reali di OpenClaw e introduciamo la tassonomia CIK, che unifica lo stato persistente di un agente in tre dimensioni, ovvero Capacità, Identità e Conoscenza, per l'analisi della sicurezza. Le nostre valutazioni coprono 12 scenari di attacco su un'istanza live di OpenClaw utilizzando quattro modelli backbone (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro e GPT-5.4). I risultati mostrano che l'avvelenamento di qualsiasi singola dimensione CIK aumenta il tasso medio di successo degli attacchi dal 24,6% al 64-74%, con anche il modello più robusto che mostra un aumento di oltre tre volte rispetto alla sua vulnerabilità baseline. Valutiamo inoltre tre strategie di difesa allineate alla CIK insieme a un meccanismo di protezione dei file; tuttavia, la difesa più forte registra comunque un tasso di successo del 63,8% sotto attacchi mirati alle Capacità, mentre la protezione dei file blocca il 97% delle iniezioni malevole ma impedisce anche aggiornamenti legittimi. Nel complesso, questi risultati dimostrano che le vulnerabilità sono intrinseche all'architettura dell'agente, rendendo necessarie salvaguardie più sistematiche per proteggere gli agenti IA personali. La nostra pagina del progetto è https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.

Il tuo Agente, la loro Risorsa: Un'Analisi della Sicurezza nel Mondo Reale di OpenClaw

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Abstract

Support