ChatPaper.aiChatPaper

Basta Fazer!? Agentes de Uso de Computador Exibem Direcionamento Cego a Objetivos

Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

October 2, 2025
Autores: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet
cs.AI

Resumo

Agentes de Uso de Computador (CUAs, na sigla em inglês) são uma classe de agentes cada vez mais utilizada que realizam ações em interfaces gráficas (GUIs) para atingir objetivos do usuário. Neste artigo, demonstramos que os CUAs exibem consistentemente a Cegueira de Direcionamento a Objetivos (BGD, na sigla em inglês): uma tendência a perseguir metas independentemente de sua viabilidade, segurança, confiabilidade ou contexto. Caracterizamos três padrões prevalentes de BGD: (i) falta de raciocínio contextual, (ii) suposições e decisões sob ambiguidade, e (iii) objetivos contraditórios ou inviáveis. Desenvolvemos o BLIND-ACT, um benchmark composto por 90 tarefas que capturam esses três padrões. Construído sobre o OSWorld, o BLIND-ACT oferece ambientes realistas e emprega juízes baseados em modelos de linguagem (LLMs) para avaliar o comportamento dos agentes, alcançando 93,75% de concordância com anotações humanas. Utilizamos o BLIND-ACT para avaliar nove modelos de ponta, incluindo Claude Sonnet e Opus 4, Computer-Use-Preview e GPT-5, observando altas taxas médias de BGD (80,8%) entre eles. Mostramos que a BGD expõe riscos sutis que surgem mesmo quando as entradas não são diretamente prejudiciais. Embora intervenções baseadas em prompts reduzam os níveis de BGD, riscos substanciais persistem, destacando a necessidade de intervenções mais robustas durante o treinamento ou a inferência. Análises qualitativas revelam modos de falha observados: viés de execução primeiro (focar em como agir em vez de se deve agir), desconexão pensamento-ação (execução divergindo do raciocínio) e primazia da solicitação (justificar ações devido a pedidos do usuário). A identificação da BGD e a introdução do BLIND-ACT estabelecem uma base para pesquisas futuras sobre o estudo e a mitigação desse risco fundamental, garantindo a implantação segura de CUAs.
English
Computer-Use Agents (CUAs) are an increasingly deployed class of agents that take actions on GUIs to accomplish user goals. In this paper, we show that CUAs consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals regardless of feasibility, safety, reliability, or context. We characterize three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii) assumptions and decisions under ambiguity, and (iii) contradictory or infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement with human annotations. We use BLIND-ACT to evaluate nine frontier models, including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing high average BGD rates (80.8%) across them. We show that BGD exposes subtle risks that arise even when inputs are not directly harmful. While prompting-based interventions lower BGD levels, substantial risk persists, highlighting the need for stronger training- or inference-time interventions. Qualitative analysis reveals observed failure modes: execution-first bias (focusing on how to act over whether to act), thought-action disconnect (execution diverging from reasoning), and request-primacy (justifying actions due to user request). Identifying BGD and introducing BLIND-ACT establishes a foundation for future research on studying and mitigating this fundamental risk and ensuring safe CUA deployment.
PDF63October 3, 2025