Uso Multiagente de Computadoras

Resumen

Los agentes de uso de computadora (CUAs) se despliegan actualmente principalmente como agentes seriales individuales. Esta configuración es subóptima para tareas complejas de largo horizonte que se benefician de la descomposición de tareas, la ejecución paralela y la replanificación constante basada en nueva información. En este artículo, argumentamos que deberíamos avanzar hacia la evaluación y construcción de sistemas de uso de computadora multiagente (MACU). Estos sistemas, que enfatizan la planificación y la ejecución paralela, mitigan muchas de las limitaciones de los CUAs de agente único. Proponemos una configuración multiagente general en la que un modelo administrador descompone las tareas de uso de computadora como un grafo acíclico dirigido (DAG), codificando dependencias y objetivos relevantes para los subagentes. En cada iteración, el administrador envía subagentes CUA paralelos para ejecutar los nodos en la frontera lista del DAG, y revisa continuamente el DAG (añadiendo, cancelando o reescribiendo nodos) a medida que llegan nuevos hallazgos de los subagentes. Este diseño trata el entorno parcialmente observable del uso de computadora como un desafío de primera clase: la información que los agentes posteriores podrían no poder reobservar se retiene y se transmite hacia adelante a través del administrador y la estructura del DAG. Demostramos que MACU mejora consistentemente en comparación con bases sólidas de agente único en un 3.4-25.5% en puntos de referencia de escritorio (OSWorld) y navegación web (Online-Mind2Web, WebTailBench, Odysseys), exhibe un escalado en tiempo de prueba más favorable y resuelve tareas complejas de largo horizonte donde los CUAs de agente único se estancan. En Odysseys, un punto de referencia de navegación web de largo horizonte, MACU mejora el tiempo de finalización promedio de la tarea en tiempo de reloj en aproximadamente 1.5 veces, demostrando su eficacia para acelerar los pipelines tradicionalmente lentos de CUAs. Nuestros hallazgos destacan que la coordinación multiagente es un eje prometedor para escalar agentes de uso de computadora para que trabajen de manera más productiva durante más tiempo y de forma más efectiva. Publicamos todo el código y las visualizaciones interactivas en https://jykoh.com/multi-agent-computer-use.

English

Computer use agents (CUAs) today are primarily deployed as single serial agents. This setup is suboptimal for complex long-horizon tasks that benefit from task decomposition, parallel execution, and consistent re-planning based on new information. In this paper, we argue that we should instead move towards evaluating and building multi-agent computer use (MACU) systems. These systems, which emphasize planning and parallel execution, alleviate many of the shortcomings of single-agent CUAs. We propose a general multi-agent setup in which a manager model decomposes computer use tasks as a directed acyclic graph (DAG), encoding relevant dependencies and goals for subagents. At each iteration, the manager dispatches parallel CUA subagents to carry out nodes on the ready frontier of the DAG, and continuously revises the DAG (adding, canceling, or rewriting nodes) as new findings arrive from subagents. This design treats the partially observable environment of computer use as a first class challenge: information that downstream agents may not be able to re-observe are retained and passed forward through the manager and DAG structure. We demonstrate that MACU consistently improves over strong single-agent baselines by 3.4-25.5% on desktop (OSWorld) and web navigation (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, exhibits more favorable test-time scaling, and solves complex long-horizon tasks where single-agent CUAs get stuck. On Odysseys, a long-horizon web navigation benchmark, MACU improves average task completion wall-clock time by {sim} 1.5 times, demonstrating its efficacy in speeding up traditionally slow CUA pipelines. Our findings highlight that multi-agent coordination is a promising axis for scaling computer use agents to work productively for longer and more effectively. We release all code and interactive visualizations at https://jykoh.com/multi-agent-computer-use.