О надежности агентов использования компьютера

Аннотация

Агенты, работающие с компьютером, быстро совершенствуются в решении практических задач, таких как навигация в интернете, автоматизация работы с рабочим столом и взаимодействие с программным обеспечением, в некоторых случаях превосходя человеческие возможности. Однако даже при неизменной задаче и модели агент, успешно выполнивший задачу однажды, может потерпеть неудачу при повторном выполнении того же задания. Это поднимает фундаментальный вопрос: если агент способен успешно выполнить задачу один раз, что мешает ему делать это стабильно? В данной работе мы исследуем источники ненадежности компьютерных агентов через три фактора: стохастичность во время выполнения, неоднозначность в постановке задачи и вариабельность поведения агента. Мы анализируем эти факторы в среде OSWorld с помощью многократного выполнения одной и той же задачи вместе с парными статистическими тестами, которые фиксируют изменения на уровне задачи в различных условиях. Наш анализ показывает, что надежность зависит как от того, как специфицированы задачи, так и от того, как варьируется поведение агента между выполнениями. Эти результаты указывают на необходимость оценивать агентов в условиях повторного выполнения, позволять агентам разрешать неоднозначность задачи через взаимодействие и отдавать предпочтение стратегиям, остающимся стабильными при разных запусках.

English

Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.

О надежности агентов использования компьютера

On the Reliability of Computer Use Agents

Аннотация

Support