ChatPaper.aiChatPaper

Einfach Machen!? Computergestützte Agenten zeigen blinde Zielgerichtetheit

Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

October 2, 2025
papers.authors: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet
cs.AI

papers.abstract

Computer-Use Agents (CUAs) sind eine zunehmend eingesetzte Klasse von Agenten, die Aktionen auf grafischen Benutzeroberflächen (GUIs) ausführen, um Benutzerziele zu erreichen. In diesem Artikel zeigen wir, dass CUAs konsequent eine Blind Goal-Directedness (BGD) aufweisen: eine Tendenz, Ziele unabhängig von Machbarkeit, Sicherheit, Zuverlässigkeit oder Kontext zu verfolgen. Wir charakterisieren drei verbreitete Muster von BGD: (i) mangelnde kontextuelle Argumentation, (ii) Annahmen und Entscheidungen unter Unklarheit sowie (iii) widersprüchliche oder unmögliche Ziele. Wir entwickeln BLIND-ACT, einen Benchmark mit 90 Aufgaben, die diese drei Muster erfassen. Basierend auf OSWorld bietet BLIND-ACT realistische Umgebungen und setzt LLM-basierte Bewerter ein, um das Agentenverhalten zu evaluieren, wobei eine Übereinstimmung von 93,75 % mit menschlichen Annotationen erreicht wird. Wir verwenden BLIND-ACT, um neun führende Modelle zu bewerten, darunter Claude Sonnet und Opus 4, Computer-Use-Preview und GPT-5, und beobachten hohe durchschnittliche BGD-Raten (80,8 %) bei diesen Modellen. Wir zeigen, dass BGD subtile Risiken offenlegt, die selbst dann entstehen, wenn die Eingaben nicht direkt schädlich sind. Während prompt-basierte Interventionen die BGD-Niveaus senken, bleibt ein erhebliches Risiko bestehen, was die Notwendigkeit stärkerer Trainings- oder Inferenzzeit-Interventionen unterstreicht. Qualitative Analysen zeigen beobachtete Fehlermodi: Execution-First-Bias (Fokus darauf, wie gehandelt wird, anstatt ob gehandelt werden sollte), Denken-Handeln-Diskrepanz (Ausführung weicht von der Argumentation ab) und Request-Primacy (Rechtfertigung von Aktionen aufgrund von Benutzeranfragen). Die Identifizierung von BGD und die Einführung von BLIND-ACT schaffen eine Grundlage für zukünftige Forschung zur Untersuchung und Minderung dieses grundlegenden Risikos sowie zur Sicherstellung eines sicheren Einsatzes von CUAs.
English
Computer-Use Agents (CUAs) are an increasingly deployed class of agents that take actions on GUIs to accomplish user goals. In this paper, we show that CUAs consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals regardless of feasibility, safety, reliability, or context. We characterize three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii) assumptions and decisions under ambiguity, and (iii) contradictory or infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement with human annotations. We use BLIND-ACT to evaluate nine frontier models, including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing high average BGD rates (80.8%) across them. We show that BGD exposes subtle risks that arise even when inputs are not directly harmful. While prompting-based interventions lower BGD levels, substantial risk persists, highlighting the need for stronger training- or inference-time interventions. Qualitative analysis reveals observed failure modes: execution-first bias (focusing on how to act over whether to act), thought-action disconnect (execution diverging from reasoning), and request-primacy (justifying actions due to user request). Identifying BGD and introducing BLIND-ACT establishes a foundation for future research on studying and mitigating this fundamental risk and ensuring safe CUA deployment.
PDF63October 3, 2025