Votre Agent, Leur Atout : Une Analyse de Sécurité en Conditions Réelles d'OpenClaw

Résumé

OpenClaw, l'agent IA personnel le plus déployé début 2026, fonctionne avec un accès complet au système local et s'intègre à des services sensibles tels que Gmail, Stripe et le système de fichiers. Si ces privilèges étendus permettent des niveaux élevés d'automatisation et une personnalisation puissante, ils exposent également une surface d'attaque substantielle que les évaluations en bac à sable existantes ne parviennent pas à capturer. Pour combler cette lacune, nous présentons la première évaluation de sécurité en conditions réelles d'OpenClaw et introduisons la taxonomie CIK, qui unifie l'état persistant d'un agent en trois dimensions, à savoir la Capacité, l'Identité et la Connaissance, pour l'analyse de sécurité. Nos évaluations couvrent 12 scénarios d'attaque sur une instance active d'OpenClaw avec quatre modèles de base (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro et GPT-5.4). Les résultats montrent que l'empoisonnement d'une seule dimension CIK augmente le taux de réussite moyen des attaques de 24,6% à 64-74%, le modèle le plus robuste affichant même une augmentation de plus de trois fois par rapport à sa vulnérabilité de base. Nous évaluons en outre trois stratégies de défense alignées sur CIK ainsi qu'un mécanisme de protection des fichiers ; cependant, la défense la plus forte produit encore un taux de réussite de 63,8% sous des attaques ciblant la Capacité, tandis que la protection des fichiers bloque 97% des injections malveillantes mais empêche également les mises à jour légitimes. Dans l'ensemble, ces résultats montrent que les vulnérabilités sont inhérentes à l'architecture de l'agent, nécessitant des sauvegardes plus systématiques pour sécuriser les agents IA personnels. Notre page projet est https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.

Votre Agent, Leur Atout : Une Analyse de Sécurité en Conditions Réelles d'OpenClaw

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Résumé

Support