Ваш агент, их актив: практический анализ безопасности OpenClaw

Аннотация

OpenClaw, наиболее широко используемый персональный ИИ-агент в начале 2026 года, функционирует с полным доступом к локальной системе и интегрируется с чувствительными сервисами, такими как Gmail, Stripe и файловой системой. Хотя такие широкие привилегии обеспечивают высокий уровень автоматизации и мощную персонализацию, они также создают значительную поверхность атаки, которую существующие изолированные оценки не учитывают. Для устранения этого пробела мы представляем первую оценку безопасности OpenClaw в реальных условиях и вводим таксономию CIK, которая объединяет постоянное состояние агента в три измерения — Способности (Capability), Идентичность (Identity) и Знания (Knowledge) — для анализа безопасности. Наши оценки охватывают 12 сценариев атаки на работающий экземпляр OpenClaw с использованием четырех базовых моделей (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro и GPT-5.4). Результаты показывают, что компрометация любого отдельного измерения CIK увеличивает средний показатель успешности атак с 24,6% до 64–74%, причем даже самая устойчивая модель демонстрирует более чем трехкратное увеличение уязвимости по сравнению с базовым уровнем. Мы также оценили три стратегии защиты, согласованные с CIK, вместе с механизмом защиты файлов; однако самая сильная защита все же показывает 63,8% успешности при атаках на Способности, в то время как защита файлов блокирует 97% вредоносных внедрений, но также препятствует легитимным обновлениям. В совокупности эти результаты демонстрируют, что уязвимости inherent архитектуре агента, что требует более системных мер защиты для обеспечения безопасности персональных ИИ-агентов. Страница проекта: https://ucsc-vlaa.github.io/CIK-Bench.

English

OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.

Ваш агент, их актив: практический анализ безопасности OpenClaw

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Аннотация

Support