ChatPaper.aiChatPaper

CaMeLsもコンピューターを使える:コンピューター利用エージェントのシステムレベルセキュリティ

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

January 14, 2026
著者: Hanna Foerster, Robert Mullins, Tom Blanchard, Nicolas Papernot, Kristina Nikolić, Florian Tramèr, Ilia Shumailov, Cheng Zhang, Yiren Zhao
cs.AI

要旨

AIエージェントは、悪意あるコンテンツがエージェントの動作を乗っ取り、認証情報の窃取や金銭的損失を引き起こすプロンプトインジェクション攻撃に対して脆弱である。唯一知られた堅牢な防御策は、信頼されたタスク計画と信頼されない環境観察を厳密に分離するアーキテクチャ上の隔離である。しかし、この設計をコンピュータ利用エージェント(CUA)——画面を視認しアクションを実行することでタスクを自動化するシステム——に適用することは、根本的な課題を提起する。現在のエージェントは各アクションを決定するためにUI状態の継続的な観察を必要とするが、これはセキュリティに必要な隔離と矛盾する。我々は、UIワークフローが動的である一方で、構造的に予測可能であることを示すことで、このジレンマを解決する。信頼されたプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件分岐を含む完全な実行グラフを生成する「CUAのための単発計画」を提案する。これにより、任意の命令インジェクションに対する証明可能な制御フロー完全性保証を提供する。このアーキテクチャ隔離は命令インジェクションを成功裏に防ぐが、UI要素を操作して計画内の意図しない有効な経路をトリガーする分岐誘導攻撃を防ぐには追加の対策が必要であることを示す。我々の設計をOSWorldで評価し、最先端モデルの性能の最大57%を維持しつつ、より小規模なオープンソースモデルの性能を最大19%向上させ、CUAにおいて厳格なセキュリティと有用性が両立可能であることを実証する。
English
AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.
PDF21January 17, 2026