Просто сделай это!? Компьютерные агенты демонстрируют слепую целеустремленность
Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness
October 2, 2025
Авторы: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet
cs.AI
Аннотация
Агенты для работы с компьютерами (Computer-Use Agents, CUAs) — это всё чаще применяемый класс агентов, которые выполняют действия через графические интерфейсы (GUI) для достижения целей пользователя. В данной статье мы показываем, что CUAs последовательно демонстрируют Слепую Целенаправленность (Blind Goal-Directedness, BGD): склонность к достижению целей без учёта их осуществимости, безопасности, надёжности или контекста. Мы выделяем три распространённых паттерна BGD: (i) отсутствие контекстного анализа, (ii) предположения и решения в условиях неопределённости и (iii) противоречивые или невыполнимые цели. Мы разработали BLIND-ACT — бенчмарк из 90 задач, охватывающих эти три паттерна. Построенный на основе OSWorld, BLIND-ACT предоставляет реалистичные среды и использует судей на основе языковых моделей (LLM) для оценки поведения агентов, достигая 93,75% согласия с аннотациями человека. Мы применяем BLIND-ACT для оценки девяти передовых моделей, включая Claude Sonnet и Opus 4, Computer-Use-Preview и GPT-5, наблюдая высокие средние показатели BGD (80,8%) среди них. Мы показываем, что BGD выявляет скрытые риски, которые возникают даже при отсутствии явно вредных входных данных. Хотя вмешательства на основе промптов снижают уровень BGD, значительный риск сохраняется, что подчеркивает необходимость более сильных мер на этапе обучения или вывода. Качественный анализ выявляет наблюдаемые режимы сбоев: предпочтение выполнения (акцент на том, как действовать, а не на том, стоит ли действовать), разрыв между мышлением и действием (выполнение расходится с рассуждениями) и приоритет запроса (оправдание действий из-за запроса пользователя). Выявление BGD и введение BLIND-ACT закладывают основу для будущих исследований по изучению и смягчению этого фундаментального риска, а также для обеспечения безопасного развёртывания CUAs.
English
Computer-Use Agents (CUAs) are an increasingly deployed class of agents that
take actions on GUIs to accomplish user goals. In this paper, we show that CUAs
consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals
regardless of feasibility, safety, reliability, or context. We characterize
three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii)
assumptions and decisions under ambiguity, and (iii) contradictory or
infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these
three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and
employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement
with human annotations. We use BLIND-ACT to evaluate nine frontier models,
including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing
high average BGD rates (80.8%) across them. We show that BGD exposes subtle
risks that arise even when inputs are not directly harmful. While
prompting-based interventions lower BGD levels, substantial risk persists,
highlighting the need for stronger training- or inference-time interventions.
Qualitative analysis reveals observed failure modes: execution-first bias
(focusing on how to act over whether to act), thought-action disconnect
(execution diverging from reasoning), and request-primacy (justifying actions
due to user request). Identifying BGD and introducing BLIND-ACT establishes a
foundation for future research on studying and mitigating this fundamental risk
and ensuring safe CUA deployment.