L'angle mort de la sécurité des agents : comment des instructions utilisateur bénignes exposent des vulnérabilités critiques dans les agents d'utilisation informatique
The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
April 12, 2026
Auteurs: Xuwei Ding, Skylar Zhai, Linxin Song, Jiate Li, Taiwei Shi, Nicholas Meade, Siva Reddy, Jian Kang, Jieyu Zhao
cs.AI
Résumé
Les agents d'utilisation informatique (CUA) peuvent désormais accomplir de manière autonome des tâches complexes dans des environnements numériques réels, mais lorsqu'ils sont trompés, ils peuvent également être utilisés pour automatiser programmatiquement des actions nuisibles. Les évaluations de sécurité existantes ciblent largement les menaces explicites telles que l'utilisation abusive et l'injection d'invites, mais négligent un scénario subtil pourtant critique où les instructions utilisateur sont entièrement bénignes et le préjudice découle du contexte de la tâche ou du résultat de l'exécution. Nous présentons OS-BLIND, un benchmark qui évalue les CUA dans des conditions d'attaque non intentionnelles, comprenant 300 tâches conçues par des humains réparties dans 12 catégories, 8 applications et 2 clusters de menaces : les menaces intégrées à l'environnement et les préjudices initiés par l'agent. Notre évaluation sur les modèles frontaliers et les cadres agentiques révèle que la plupart des CUA dépassent 90% de taux de réussite d'attaque (ASR), et même le Claude 4.5 Sonnet aligné sur la sécurité atteint 73,0% d'ASR. Plus intéressant encore, cette vulnérabilité devient encore plus sévère, l'ASR passant de 73,0% à 92,7% lorsque Claude 4.5 Sonnet est déployé dans des systèmes multi-agents. Notre analyse montre en outre que les défenses de sécurité existantes offrent une protection limitée lorsque les instructions utilisateur sont bénignes. L'alignement de sécurité s'active principalement dans les premières étapes et se réengage rarement lors de l'exécution ultérieure. Dans les systèmes multi-agents, les sous-tâches décomposées obscurcissent l'intention nuisible pour le modèle, conduisant les modèles alignés sur la sécurité à l'échec. Nous publierons notre OS-BLIND pour encourager la communauté de recherche élargie à étudier et résoudre davantage ces défis de sécurité.
English
Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.