Su Agente, Su Activo: Un Análisis de Seguridad en el Mundo Real de OpenClaw

Resumen

OpenClaw, el agente de IA personal más ampliamente implementado a principios de 2026, opera con acceso total al sistema local y se integra con servicios sensibles como Gmail, Stripe y el sistema de archivos. Si bien estos amplios privilegios permiten altos niveles de automatización y una potente personalización, también exponen una superficie de ataque sustancial que las evaluaciones existentes en entornos aislados (sandbox) no logran capturar. Para abordar esta brecha, presentamos la primera evaluación de seguridad en el mundo real de OpenClaw e introducimos la taxonomía CIK, que unifica el estado persistente de un agente en tres dimensiones: Capacidad, Identidad y Conocimiento, para el análisis de seguridad. Nuestras evaluaciones cubren 12 escenarios de ataque en una instancia activa de OpenClaw utilizando cuatro modelos base (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro y GPT-5.4). Los resultados muestran que envenenar cualquier dimensión CIK individual aumenta la tasa promedio de éxito de los ataques del 24.6% al 64-74%, donde incluso el modelo más robusto exhibe un aumento de más del triple sobre su vulnerabilidad de referencia. Evaluamos además tres estrategias de defensa alineadas con CIK junto con un mecanismo de protección de archivos; sin embargo, la defensa más fuerte aún produce una tasa de éxito del 63.8% bajo ataques dirigidos a la Capacidad, mientras que la protección de archivos bloquea el 97% de las inyecciones maliciosas pero también impide actualizaciones legítimas. En conjunto, estos hallazgos demuestran que las vulnerabilidades son inherentes a la arquitectura del agente, lo que hace necesarias salvaguardias más sistemáticas para proteger a los agentes de IA personal. Nuestra página del proyecto es https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.

Su Agente, Su Activo: Un Análisis de Seguridad en el Mundo Real de OpenClaw

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Resumen

Support