Over de betrouwbaarheid van computergebruiksagenten

Samenvatting

Computer-use agents zijn snel verbeterd in real-world taken zoals webnavigatie, desktopautomatisering en software-interactie, en overtreffen in sommige gevallen zelfs de menselijke prestaties. Toch kan een agent die eenmaal slaagt, falen bij een herhaalde uitvoering van dezelfde taak, zelfs wanneer de taak en het model ongewijzigd blijven. Dit roept een fundamentele vraag op: als een agent een taak eenmaal kan voltooien, wat weerhoudt het er dan van om dit betrouwbaar te doen? In dit werk onderzoeken we de bronnen van onbetrouwbaarheid bij computer-use agents aan de hand van drie factoren: stochastiek tijdens de uitvoering, ambiguïteit in de taakspecificatie en variabiliteit in het agentgedrag. We analyseren deze factoren op OSWorld door middel van herhaalde uitvoeringen van dezelfde taak, samen met gepaarde statistische tests die veranderingen op taakniveau vastleggen across verschillende instellingen. Onze analyse toont aan dat betrouwbaarheid afhangt van zowel hoe taken worden gespecificeerd als hoe het agentgedrag varieert tussen uitvoeringen. Deze bevindingen suggereren de noodzaak om agents te evalueren onder herhaalde uitvoering, agents in staat te stellen taakambiguïteit op te lossen via interactie, en strategieën te prefereren die stabiel blijven over meerdere runs.

English

Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.

Over de betrouwbaarheid van computergebruiksagenten

On the Reliability of Computer Use Agents

Samenvatting

Support