Los Camellos También Pueden Usar Computadoras: Seguridad a Nivel de Sistema para Agentes de Uso Informático
CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents
January 14, 2026
Autores: Hanna Foerster, Robert Mullins, Tom Blanchard, Nicolas Papernot, Kristina Nikolić, Florian Tramèr, Ilia Shumailov, Cheng Zhang, Yiren Zhao
cs.AI
Resumen
Los agentes de IA son vulnerables a ataques de inyección de instrucciones, donde contenido malicioso secuestra el comportamiento del agente para robar credenciales o causar pérdidas económicas. La única defensa robusta conocida es el aislamiento arquitectónico que separa estrictamente la planificación de tareas confiables de las observaciones del entorno no confiables. Sin embargo, aplicar este diseño a los Agentes de Uso Informático (CUA, por sus siglas en inglés) —sistemas que automatizan tareas mediante la visualización de pantallas y la ejecución de acciones— presenta un desafío fundamental: los agentes actuales requieren la observación continua del estado de la interfaz de usuario (UI) para determinar cada acción, lo que entra en conflicto con el aislamiento requerido para la seguridad. Resolvemos esta tensión demostrando que los flujos de trabajo de la UI, aunque dinámicos, son estructuralmente predecibles. Introducimos la Planificación de Un Solo Disparo para CUAs, donde un planificador confiable genera un grafo de ejecución completo con ramas condicionales antes de cualquier observación de contenido potencialmente malicioso, proporcionando garantías comprobables de integridad del flujo de control contra inyecciones arbitrarias de instrucciones. Aunque este aislamiento arquitectónico previene con éxito las inyecciones de instrucciones, demostramos que se necesitan medidas adicionales para prevenir los ataques de Direccionamiento de Rama, que manipulan elementos de la UI para activar rutas válidas no intencionadas dentro del plan. Evaluamos nuestro diseño en OSWorld y conservamos hasta el 57% del rendimiento de los modelos de vanguardia, mientras mejoramos el rendimiento de modelos de código abierto más pequeños hasta en un 19%, demostrando que la seguridad rigurosa y la utilidad pueden coexistir en los CUAs.
English
AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.