Über die Zuverlässigkeit von Computer-Use-Agenten

Zusammenfassung

Computer-Use-Agents haben bei realen Aufgaben wie Webbrowsing, Desktop-Automatisierung und Software-Interaktion rasche Fortschritte erzielt und in einigen Fällen sogar die menschliche Leistung übertroffen. Doch selbst wenn Aufgabe und Modell unverändert bleiben, kann ein Agent, der einmal erfolgreich war, bei einer wiederholten Ausführung derselben Aufgabe versagen. Dies wirft eine grundlegende Frage auf: Wenn ein Agent eine Aufgabe einmal bewältigen kann, was hindert ihn daran, dies zuverlässig zu tun? In dieser Arbeit untersuchen wir die Ursachen für mangelnde Zuverlässigkeit bei Computer-Use-Agents anhand von drei Faktoren: Stochastizität während der Ausführung, Mehrdeutigkeit in der Aufgabenspezifikation und Variabilität im Agentenverhalten. Wir analysieren diese Faktoren in OSWorld durch wiederholte Ausführungen derselben Aufgabe gepaart mit statistischen Tests, die aufgabenbezogene Veränderungen über verschiedene Einstellungen hinweg erfassen. Unsere Analyse zeigt, dass die Zuverlässigkeit sowohl davon abhängt, wie Aufgaben spezifiziert werden, als auch davon, wie sich das Agentenverhalten über verschiedene Ausführungen hinweg verändert. Diese Ergebnisse legen nahe, dass Agenten unter wiederholter Ausführung evaluiert werden müssen, dass Agenten Mehrdeutigkeiten in Aufgaben durch Interaktion klären können sollten und dass Strategien zu bevorzugen sind, die über mehrere Durchläufe hinweg stabil bleiben.

English

Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.

Über die Zuverlässigkeit von Computer-Use-Agenten

On the Reliability of Computer Use Agents

Zusammenfassung

Support