Seu Agente, Seu Ativo: Uma Análise de Segurança no Mundo Real do OpenClaw

Resumo

O OpenClaw, o agente de IA pessoal mais amplamente implantado no início de 2026, opera com acesso total ao sistema local e integra-se a serviços sensíveis como Gmail, Stripe e o sistema de arquivos. Embanto esses privilégios abrangentes permitam altos níveis de automação e personalização poderosa, eles também expõem uma superfície de ataque substancial que as avaliações sandboxadas existentes não conseguem capturar. Para colmatar esta lacuna, apresentamos a primeira avaliação de segurança do mundo real do OpenClaw e introduzimos a taxonomia CIK, que unifica o estado persistente de um agente em três dimensões, ou seja, Capacidade, Identidade e Conhecimento, para análise de segurança. As nossas avaliações abrangem 12 cenários de ataque numa instância ativa do OpenClaw em quatro modelos de base (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro e GPT-5.4). Os resultados mostram que envenenar qualquer dimensão única da CIK aumenta a taxa média de sucesso de ataque de 24,6% para 64-74%, com o modelo mais robusto a exibir um aumento de mais de três vezes em relação à sua vulnerabilidade de base. Avaliamos ainda três estratégias de defesa alinhadas com a CIK, juntamente com um mecanismo de proteção de ficheiros; no entanto, a defesa mais forte ainda produz uma taxa de sucesso de 63,8% sob ataques direcionados à Capacidade, enquanto a proteção de ficheiros bloqueia 97% das injeções maliciosas, mas também impede atualizações legítimas. Em conjunto, estas descobertas mostram que as vulnerabilidades são inerentes à arquitetura do agente, necessitando de salvaguardas mais sistemáticas para proteger os agentes de IA pessoais. A nossa página do projeto é https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.