Jouw Agent, Hun Troef: Een Praktijkgerichte Veiligheidsanalyse van OpenClaw

Samenvatting

OpenClaw, de meest gebruikte persoonlijke AI-agent begin 2026, opereert met volledige lokale systeemtoegang en integreert met gevoelige diensten zoals Gmail, Stripe en het bestandssysteem. Hoewel deze brede privileges een hoog niveau van automatisering en krachtige personalisatie mogelijk maken, blootstellen ze ook een aanzienlijk aanvalsoppervlak dat bestaande gesandeboxte evaluaties niet kunnen vastleggen. Om deze kloof te dichten, presenteren we de eerste real-world veiligheidsevaluatie van OpenClaw en introduceren we de CIK-taxonomie, die de persistente staat van een agent verenigt in drie dimensies, namelijk Capability (Capaciteit), Identity (Identiteit) en Knowledge (Kennis), voor veiligheidsanalyse. Onze evaluaties beslaan 12 aanvalsscenario's op een live OpenClaw-instantie over vier basismodellen (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro en GPT-5.4). De resultaten tonen aan dat het vergiftigen van één enkele CIK-dimensie het gemiddelde aanvalsuccespercentage verhoogt van 24,6% naar 64-74%, waarbij zelfs het meest robuuste model een meer dan drievoudige toename vertoont ten opzichte van de basislijnkwetsbaarheid. We evalueren verder drie CIK-afgestemde verdedigingsstrategieën naast een bestandsbeschermingsmechanisme; de sterkste verdediging levert echter nog steeds een slagingspercentage van 63,8% op bij capaciteitgerichte aanvallen, terwijl bestandsbescherming 97% van de kwaadaardige injecties blokkeert maar ook legitieme updates verhindert. Samen genomen tonen deze bevindingen aan dat de kwetsbaarheden inherent zijn aan de agentarchitectuur, wat meer systematische beveiligingsmaatregelen vereist om persoonlijke AI-agents te beveiligen. Onze projectpagina is https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.

Jouw Agent, Hun Troef: Een Praktijkgerichte Veiligheidsanalyse van OpenClaw

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Samenvatting

Support