Gewoon Doen!? Computergebruikte Agents Tonen Blinde Doelgerichtheid
Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness
October 2, 2025
Auteurs: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet
cs.AI
Samenvatting
Computer-Use Agents (CUAs) zijn een steeds vaker ingezette klasse van agents die acties uitvoeren op GUI's om gebruikersdoelen te bereiken. In dit artikel laten we zien dat CUAs consistent Blind Goal-Directedness (BGD) vertonen: een neiging om doelen na te streven ongeacht haalbaarheid, veiligheid, betrouwbaarheid of context. We karakteriseren drie veelvoorkomende patronen van BGD: (i) gebrek aan contextueel redeneren, (ii) aannames en beslissingen onder ambiguïteit, en (iii) tegenstrijdige of onhaalbare doelen. We ontwikkelen BLIND-ACT, een benchmark van 90 taken die deze drie patronen vastlegt. Gebouwd op OSWorld, biedt BLIND-ACT realistische omgevingen en maakt gebruik van LLM-gebaseerde beoordelaars om agentgedrag te evalueren, met een overeenstemming van 93,75% met menselijke annotaties. We gebruiken BLIND-ACT om negen frontier-modellen te evalueren, waaronder Claude Sonnet en Opus 4, Computer-Use-Preview, en GPT-5, en observeren hoge gemiddelde BGD-percentages (80,8%) onder hen. We laten zien dat BGD subtiele risico's blootlegt die ontstaan zelfs wanneer inputs niet direct schadelijk zijn. Hoewel op prompting gebaseerde interventies BGD-niveaus verlagen, blijft er aanzienlijk risico bestaan, wat de noodzaak benadrukt van sterkere training- of inferentie-tijd interventies. Kwalitatieve analyse onthult waargenomen faalmodi: execution-first bias (focus op hoe te handelen in plaats van of te handelen), thought-action disconnect (uitvoering die afwijkt van redenering), en request-primacy (acties rechtvaardigen vanwege gebruikersverzoek). Het identificeren van BGD en de introductie van BLIND-ACT leggen een basis voor toekomstig onderzoek naar het bestuderen en mitigeren van dit fundamentele risico en het waarborgen van veilige CUA-implementatie.
English
Computer-Use Agents (CUAs) are an increasingly deployed class of agents that
take actions on GUIs to accomplish user goals. In this paper, we show that CUAs
consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals
regardless of feasibility, safety, reliability, or context. We characterize
three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii)
assumptions and decisions under ambiguity, and (iii) contradictory or
infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these
three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and
employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement
with human annotations. We use BLIND-ACT to evaluate nine frontier models,
including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing
high average BGD rates (80.8%) across them. We show that BGD exposes subtle
risks that arise even when inputs are not directly harmful. While
prompting-based interventions lower BGD levels, substantial risk persists,
highlighting the need for stronger training- or inference-time interventions.
Qualitative analysis reveals observed failure modes: execution-first bias
(focusing on how to act over whether to act), thought-action disconnect
(execution diverging from reasoning), and request-primacy (justifying actions
due to user request). Identifying BGD and introducing BLIND-ACT establishes a
foundation for future research on studying and mitigating this fundamental risk
and ensuring safe CUA deployment.