Ihr Agent, deren Vermögenswert: Eine Sicherheitsanalyse von OpenClaw in der Praxis

Zusammenfassung

OpenClaw, der am weitesten verbreitete persönliche KI-Assistent Anfang 2026, operiert mit vollem lokalen Systemzugriff und ist in sensible Dienste wie Gmail, Stripe und das Dateisystem integriert. Während diese umfangreichen Privilegien ein hohes Maß an Automatisierung und leistungsstarker Personalisierung ermöglichen, eröffnen sie auch eine erhebliche Angriffsfläche, die von bestehenden sandbox-basierten Evaluierungen nicht erfasst wird. Um diese Lücke zu schließen, präsentieren wir die erste Real-World-Sicherheitsevaluierung von OpenClaw und führen die CIK-Taxonomie ein, die den persistenten Zustand eines Agenten zur Sicherheitsanalyse in drei Dimensionen vereinheitlicht: Fähigkeiten (Capability), Identität (Identity) und Wissen (Knowledge). Unsere Evaluierungen umfassen 12 Angriffsszenarien an einer aktiven OpenClaw-Instanz mit vier zugrundeliegenden Modellen (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro und GPT-5.4). Die Ergebnisse zeigen, dass die Vergiftung einer einzelnen CIK-Dimension die durchschnittliche Angriffserfolgsrate von 24,6 % auf 64–74 % erhöht, wobei selbst das robusteste Modell einen mehr als dreifachen Anstieg gegenüber seiner Baseline-Anfälligkeit aufweist. Wir bewerten weiterhin drei CIK-orientierte Abwehrstrategien zusammen mit einem Dateischutzmechanismus; die stärkste Abwehr führt jedoch unter Fähigkeits-orientierten Angriffen immer noch zu einer Erfolgsrate von 63,8 %, während der Dateischutz 97 % der bösartigen Injectionen blockiert, aber auch legitime Aktualisierungen verhindert. Zusammengenommen zeigen diese Ergebnisse, dass die Schwachstellen der Agenten-Architektur inhärent sind und systematischere Sicherheitsvorkehrungen erforderlich sind, um persönliche KI-Agenten abzusichern. Unsere Projektseite ist https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.

Ihr Agent, deren Vermögenswert: Eine Sicherheitsanalyse von OpenClaw in der Praxis

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Zusammenfassung

Support