Les chameaux peuvent aussi utiliser les ordinateurs : Sécurité au niveau système pour les agents d'utilisation informatique

papers.abstract

Les agents IA sont vulnérables aux attaques par injection de prompt, où un contenu malveillant détourne le comportement de l'agent pour voler des identifiants ou causer des pertes financières. La seule défense robuste connue est l'isolation architecturale qui sépare strictement la planification de tâches de confiance des observations non fiables de l'environnement. Cependant, l'application de cette conception aux agents d'utilisation informatique (CUA) – des systèmes qui automatisent des tâches en visualisant des écrans et en exécutant des actions – présente un défi fondamental : les agents actuels nécessitent une observation continue de l'état de l'interface utilisateur pour déterminer chaque action, ce qui entre en conflit avec l'isolation requise pour la sécurité. Nous résolvons cette tension en démontrant que les flux de travail des interfaces utilisateur, bien que dynamiques, sont structurellement prévisibles. Nous introduisons la planification en une seule étape pour les CUA, où un planificateur de confiance génère un graphe d'exécution complet avec des branches conditionnelles avant toute observation de contenu potentiellement malveillant, fournissant des garanties vérifiables d'intégrité du flux de contrôle contre les injections d'instructions arbitraires. Bien que cette isolation architecturale prévienne avec succès les injections d'instructions, nous montrons que des mesures supplémentaires sont nécessaires pour prévenir les attaques par détournement de branche, qui manipulent les éléments de l'interface utilisateur pour déclencher des chemins valides non intentionnels dans le plan. Nous évaluons notre conception sur OSWorld et conservons jusqu'à 57 % des performances des modèles de pointe tout en améliorant les performances des modèles open source plus petits jusqu'à 19 %, démontrant qu'une sécurité rigoureuse et l'utilité peuvent coexister dans les CUA.

English

AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.

Les chameaux peuvent aussi utiliser les ordinateurs : Sécurité au niveau système pour les agents d'utilisation informatique

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

papers.abstract

Support