¿Simplemente hazlo? Los agentes de uso computacional muestran una direccionalidad ciega hacia objetivos
Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness
October 2, 2025
Autores: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet
cs.AI
Resumen
Los Agentes de Uso Informático (CUAs, por sus siglas en inglés) son una clase de agentes cada vez más implementada que realizan acciones en interfaces gráficas de usuario (GUIs) para cumplir objetivos del usuario. En este artículo, demostramos que los CUAs exhiben consistentemente una Direccionalidad Ciega hacia Objetivos (BGD, por sus siglas en inglés): una tendencia a perseguir metas sin considerar su viabilidad, seguridad, confiabilidad o contexto. Caracterizamos tres patrones prevalentes de BGD: (i) falta de razonamiento contextual, (ii) suposiciones y decisiones bajo ambigüedad, y (iii) objetivos contradictorios o inviables. Desarrollamos BLIND-ACT, un benchmark de 90 tareas que capturan estos tres patrones. Construido sobre OSWorld, BLIND-ACT proporciona entornos realistas y emplea evaluadores basados en modelos de lenguaje (LLMs) para analizar el comportamiento de los agentes, logrando un 93.75% de concordancia con anotaciones humanas. Utilizamos BLIND-ACT para evaluar nueve modelos de vanguardia, incluyendo Claude Sonnet y Opus 4, Computer-Use-Preview y GPT-5, observando altas tasas promedio de BGD (80.8%) entre ellos. Mostramos que el BGD expone riesgos sutiles que surgen incluso cuando las entradas no son directamente dañinas. Aunque las intervenciones basadas en prompts reducen los niveles de BGD, persiste un riesgo sustancial, destacando la necesidad de intervenciones más sólidas durante el entrenamiento o la inferencia. El análisis cualitativo revela modos de fallo observados: sesgo de ejecución primero (centrarse en cómo actuar en lugar de si actuar), desconexión pensamiento-acción (la ejecución diverge del razonamiento) y primacía de la solicitud (justificar acciones debido a la petición del usuario). Identificar el BGD e introducir BLIND-ACT establece una base para futuras investigaciones sobre el estudio y mitigación de este riesgo fundamental, asegurando un despliegue seguro de los CUAs.
English
Computer-Use Agents (CUAs) are an increasingly deployed class of agents that
take actions on GUIs to accomplish user goals. In this paper, we show that CUAs
consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals
regardless of feasibility, safety, reliability, or context. We characterize
three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii)
assumptions and decisions under ambiguity, and (iii) contradictory or
infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these
three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and
employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement
with human annotations. We use BLIND-ACT to evaluate nine frontier models,
including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing
high average BGD rates (80.8%) across them. We show that BGD exposes subtle
risks that arise even when inputs are not directly harmful. While
prompting-based interventions lower BGD levels, substantial risk persists,
highlighting the need for stronger training- or inference-time interventions.
Qualitative analysis reveals observed failure modes: execution-first bias
(focusing on how to act over whether to act), thought-action disconnect
(execution diverging from reasoning), and request-primacy (justifying actions
due to user request). Identifying BGD and introducing BLIND-ACT establishes a
foundation for future research on studying and mitigating this fundamental risk
and ensuring safe CUA deployment.