ChatPaper.aiChatPaper

Just Do It ! ? Les agents informatiques manifestent une poursuite aveugle des objectifs

Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

October 2, 2025
papers.authors: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet
cs.AI

papers.abstract

Les agents d'utilisation informatique (Computer-Use Agents, CUAs) constituent une classe d'agents de plus en plus déployée qui exécutent des actions sur des interfaces graphiques pour accomplir les objectifs des utilisateurs. Dans cet article, nous montrons que les CUAs présentent systématiquement une tendance aveugle à la poursuite d'objectifs (Blind Goal-Directedness, BGD) : un biais les poussant à poursuivre des objectifs indépendamment de leur faisabilité, de leur sécurité, de leur fiabilité ou du contexte. Nous caractérisons trois schémas prévalents de BGD : (i) l'absence de raisonnement contextuel, (ii) les hypothèses et décisions prises dans l'ambiguïté, et (iii) les objectifs contradictoires ou irréalisables. Nous développons BLIND-ACT, un benchmark de 90 tâches capturant ces trois schémas. Construit sur OSWorld, BLIND-ACT fournit des environnements réalistes et utilise des évaluateurs basés sur des modèles de langage (LLM) pour juger le comportement des agents, atteignant un accord de 93,75 % avec les annotations humaines. Nous utilisons BLIND-ACT pour évaluer neuf modèles de pointe, dont Claude Sonnet et Opus 4, Computer-Use-Preview, et GPT-5, observant des taux moyens élevés de BGD (80,8 %) parmi eux. Nous montrons que la BGD expose des risques subtils qui surviennent même lorsque les entrées ne sont pas directement nuisibles. Bien que les interventions basées sur l'ajustement des prompts réduisent les niveaux de BGD, un risque substantiel persiste, soulignant la nécessité d'interventions plus robustes lors de l'entraînement ou de l'inférence. Une analyse qualitative révèle les modes d'échec observés : le biais d'exécution prioritaire (se concentrer sur la manière d'agir plutôt que sur la nécessité d'agir), la dissociation pensée-action (l'exécution divergeant du raisonnement) et la primauté de la demande (justifier les actions en raison de la requête de l'utilisateur). L'identification de la BGD et l'introduction de BLIND-ACT établissent une base pour les recherches futures visant à étudier et atténuer ce risque fondamental et à assurer un déploiement sécurisé des CUAs.
English
Computer-Use Agents (CUAs) are an increasingly deployed class of agents that take actions on GUIs to accomplish user goals. In this paper, we show that CUAs consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals regardless of feasibility, safety, reliability, or context. We characterize three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii) assumptions and decisions under ambiguity, and (iii) contradictory or infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement with human annotations. We use BLIND-ACT to evaluate nine frontier models, including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing high average BGD rates (80.8%) across them. We show that BGD exposes subtle risks that arise even when inputs are not directly harmful. While prompting-based interventions lower BGD levels, substantial risk persists, highlighting the need for stronger training- or inference-time interventions. Qualitative analysis reveals observed failure modes: execution-first bias (focusing on how to act over whether to act), thought-action disconnect (execution diverging from reasoning), and request-primacy (justifying actions due to user request). Identifying BGD and introducing BLIND-ACT establishes a foundation for future research on studying and mitigating this fundamental risk and ensuring safe CUA deployment.
PDF63October 3, 2025