Sobre a Confiabilidade de Agentes de Uso de Computador

Resumo

Os agentes de uso computacional têm melhorado rapidamente em tarefas do mundo real, como navegação na web, automação de desktop e interação com software, em alguns casos superando o desempenho humano. No entanto, mesmo quando a tarefa e o modelo permanecem inalterados, um agente que tem sucesso uma vez pode falhar na execução repetida da mesma tarefa. Isso levanta uma questão fundamental: se um agente pode executar uma tarefa com sucesso uma vez, o que impede que o faça de forma confiável? Neste trabalho, estudamos as fontes de falta de confiabilidade em agentes de uso computacional através de três fatores: a estocasticidade durante a execução, a ambiguidade na especificação da tarefa e a variabilidade no comportamento do agente. Analisamos esses fatores no OSWorld usando execuções repetidas da mesma tarefa em conjunto com testes estatísticos pareados que capturam mudanças em nível de tarefa em diferentes configurações. Nossa análise mostra que a confiabilidade depende tanto de como as tarefas são especificadas quanto de como o comportamento do agente varia entre as execuções. Essas descobertas sugerem a necessidade de avaliar os agentes sob execução repetida, permitir que os agentes resolvam ambiguidades de tarefas por meio de interação e favorecer estratégias que permaneçam estáveis entre execuções.

English

Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.

Sobre a Confiabilidade de Agentes de Uso de Computador

On the Reliability of Computer Use Agents

Resumo

Support