Sobre la Fiabilidad de los Agentes de Uso Informático

Resumen

Los agentes de uso informático han mejorado rápidamente en tareas del mundo real como la navegación web, la automatización de escritorio y la interacción con software, en algunos casos superando el rendimiento humano. Sin embargo, incluso cuando la tarea y el modelo permanecen sin cambios, un agente que tiene éxito una vez puede fallar en una ejecución repetida de la misma tarea. Esto plantea una pregunta fundamental: si un agente puede realizar una tarea con éxito una vez, ¿qué le impide hacerlo de manera confiable? En este trabajo, estudiamos las fuentes de falta de confiabilidad en los agentes de uso informático a través de tres factores: la estocasticidad durante la ejecución, la ambigüedad en la especificación de la tarea y la variabilidad en el comportamiento del agente. Analizamos estos factores en OSWorld mediante ejecuciones repetidas de la misma tarea junto con pruebas estadísticas pareadas que capturan cambios a nivel de tarea en diferentes configuraciones. Nuestro análisis muestra que la confiabilidad depende tanto de cómo se especifican las tareas como de cómo varía el comportamiento del agente entre ejecuciones. Estos hallazgos sugieren la necesidad de evaluar a los agentes bajo ejecución repetida, permitir que los agentes resuelvan la ambigüedad de las tareas mediante la interacción y favorecer estrategias que se mantengan estables entre ejecuciones.

English

Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.

Sobre la Fiabilidad de los Agentes de Uso Informático

On the Reliability of Computer Use Agents

Resumen

Support