Utilisation multi-agent d'ordinateurs

Résumé

Les agents d’utilisation d’ordinateur (CUA) sont aujourd’hui principalement déployés comme des agents uniques séquentiels. Cette configuration est sous-optimale pour les tâches complexes à long horizon qui bénéficient de la décomposition des tâches, de l’exécution parallèle et d’une replanification cohérente en fonction des nouvelles informations. Dans cet article, nous soutenons qu’il convient plutôt de se tourner vers l’évaluation et la construction de systèmes d’utilisation d’ordinateur multi-agents (MACU). Ces systèmes, qui mettent l’accent sur la planification et l’exécution parallèle, atténuent bon nombre des lacunes des CUA à agent unique. Nous proposons une configuration multi-agent générale dans laquelle un modèle gestionnaire décompose les tâches d’utilisation d’ordinateur sous forme de graphe orienté acyclique (DAG), encodant les dépendances et les objectifs pertinents pour les sous-agents. À chaque itération, le gestionnaire répartit des sous-agents CUA parallèles pour exécuter les nœuds sur la frontière prête du DAG, et révise en continu le DAG (ajout, annulation ou réécriture de nœuds) à mesure que de nouvelles informations parviennent des sous-agents. Cette conception traite l’environnement partiellement observable de l’utilisation d’ordinateur comme un défi de première classe : les informations que les agents en aval pourraient ne pas être en mesure de réobserver sont conservées et transmises via la structure du gestionnaire et du DAG. Nous démontrons que MACU améliore systématiquement les bases solides à agent unique de 3,4 à 25,5 % sur les benchmarks de bureau (OSWorld) et de navigation web (Online-Mind2Web, WebTailBench, Odysseys), présente un passage à l’échelle plus favorable au moment du test, et résout des tâches complexes à long horizon où les CUA à agent unique restent bloqués. Sur Odysseys, un benchmark de navigation web à long horizon, MACU améliore le temps réel d’achèvement moyen des tâches d’environ 1,5 fois, démontrant son efficacité pour accélérer des pipelines CUA traditionnellement lents. Nos résultats soulignent que la coordination multi-agent est un axe prometteur pour faire évoluer les agents d’utilisation d’ordinateur afin qu’ils travaillent plus longtemps et plus efficacement. Nous publions l’intégralité du code et des visualisations interactives à l’adresse https://jykoh.com/multi-agent-computer-use.

English

Computer use agents (CUAs) today are primarily deployed as single serial agents. This setup is suboptimal for complex long-horizon tasks that benefit from task decomposition, parallel execution, and consistent re-planning based on new information. In this paper, we argue that we should instead move towards evaluating and building multi-agent computer use (MACU) systems. These systems, which emphasize planning and parallel execution, alleviate many of the shortcomings of single-agent CUAs. We propose a general multi-agent setup in which a manager model decomposes computer use tasks as a directed acyclic graph (DAG), encoding relevant dependencies and goals for subagents. At each iteration, the manager dispatches parallel CUA subagents to carry out nodes on the ready frontier of the DAG, and continuously revises the DAG (adding, canceling, or rewriting nodes) as new findings arrive from subagents. This design treats the partially observable environment of computer use as a first class challenge: information that downstream agents may not be able to re-observe are retained and passed forward through the manager and DAG structure. We demonstrate that MACU consistently improves over strong single-agent baselines by 3.4-25.5% on desktop (OSWorld) and web navigation (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, exhibits more favorable test-time scaling, and solves complex long-horizon tasks where single-agent CUAs get stuck. On Odysseys, a long-horizon web navigation benchmark, MACU improves average task completion wall-clock time by {sim} 1.5 times, demonstrating its efficacy in speeding up traditionally slow CUA pipelines. Our findings highlight that multi-agent coordination is a promising axis for scaling computer use agents to work productively for longer and more effectively. We release all code and interactive visualizations at https://jykoh.com/multi-agent-computer-use.