Camelos Também Podem Usar Computadores: Segurança em Nível de Sistema para Agentes de Uso de Computador
CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents
January 14, 2026
Autores: Hanna Foerster, Robert Mullins, Tom Blanchard, Nicolas Papernot, Kristina Nikolić, Florian Tramèr, Ilia Shumailov, Cheng Zhang, Yiren Zhao
cs.AI
Resumo
Os agentes de IA são vulneráveis a ataques de injeção de prompt, nos quais conteúdos maliciosos sequestram o comportamento do agente para roubar credenciais ou causar perdas financeiras. A única defesa robusta conhecida é o isolamento arquitetônico que separa estritamente o planejamento confiável de tarefas das observações não confiáveis do ambiente. No entanto, aplicar este projeto a Agentes de Uso de Computador (CUAs) – sistemas que automatizam tarefas visualizando telas e executando ações – apresenta um desafio fundamental: os agentes atuais exigem observação contínua do estado da interface do usuário (UI) para determinar cada ação, conflitando com o isolamento necessário para a segurança. Resolvemos esta tensão demonstrando que os fluxos de trabalho de UI, embora dinâmicos, são estruturalmente previsíveis. Introduzimos o Planejamento de Disparo Único para CUAs, onde um planejador confiável gera um grafo de execução completo com ramificações condicionais antes de qualquer observação de conteúdo potencialmente malicioso, fornecendo garantias comprováveis de integridade de fluxo de controle contra injeções arbitrárias de instruções. Embora este isolamento arquitetônico impeça com sucesso as injeções de instrução, mostramos que medidas adicionais são necessárias para prevenir ataques de Direcionamento de Ramificação, que manipulam elementos de UI para acionar caminhos válidos não intencionais dentro do plano. Avaliamos nosso projeto no OSWorld e mantemos até 57% do desempenho dos modelos de fronteira, enquanto melhoramos o desempenho de modelos menores de código aberto em até 19%, demonstrando que segurança rigorosa e utilidade podem coexistir em CUAs.
English
AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.