Sur la fiabilité des agents d'utilisation informatique

Résumé

Les agents informatiques ont rapidement progressé dans l'exécution de tâches réelles telles que la navigation web, l'automatisation de bureau et l'interaction logicielle, surpassant dans certains cas les performances humaines. Pourtant, même lorsque la tâche et le modèle restent inchangés, un agent qui réussit une fois peut échouer lors d'une exécution répétée de la même tâche. Cela soulève une question fondamentale : si un agent peut accomplir une tâche une fois, qu'est-ce qui l'empêche de le faire de manière fiable ? Dans ce travail, nous étudions les sources d'instabilité des agents informatiques à travers trois facteurs : la stochasticité durant l'exécution, l'ambiguïté dans la spécification des tâches, et la variabilité du comportement de l'agent. Nous analysons ces facteurs sur OSWorld en utilisant des exécutions répétées de la même tâche ainsi que des tests statistiques appariés capturant les changements au niveau des tâches selon les configurations. Notre analyse montre que la fiabilité dépend à la fois de la manière dont les tâches sont spécifiées et de la façon dont le comportement de l'agent varie entre les exécutions. Ces résultats suggèrent la nécessité d'évaluer les agents lors d'exécutions répétées, de permettre aux agents de résoudre l'ambiguïté des tâches par l'interaction, et de privilégier les stratégies qui restent stables d'une exécution à l'autre.

English

Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.

Sur la fiabilité des agents d'utilisation informatique

On the Reliability of Computer Use Agents

Résumé

Support