Multi-Agent Computergebruik

Samenvatting

Huidige computergebruikagenten (CUA's) worden voornamelijk ingezet als enkele seriële agenten. Deze opzet is suboptimaal voor complexe langetermijn taken die baat hebben bij taakdecompositie, parallelle uitvoering en consistente herplanning op basis van nieuwe informatie. In dit artikel beargumenteren wij dat we in plaats daarvan moeten overgaan naar het evalueren en bouwen van multi-agent computergebruik (MACU) systemen. Deze systemen, die de nadruk leggen op planning en parallelle uitvoering, verhelpen veel van de tekortkomingen van single-agent CUA's. Wij stellen een algemene multi-agent opzet voor waarin een managermodel computergebruiktaken ontleedt als een gerichte acyclische graaf (DAG), met daarin de relevante afhankelijkheden en doelen voor subagenten. Bij elke iteratie stuurt de manager parallelle CUA-subagenten aan om knooppunten op de gereedheidsgrens van de DAG uit te voeren, en herziet continu de DAG (knooppunten toevoegen, annuleren of herschrijven) naarmate er nieuwe bevindingen van subagenten binnenkomen. Dit ontwerp behandelt de gedeeltelijk waarneembare omgeving van computergebruik als een fundamentele uitdaging: informatie die stroomafwaartse agenten mogelijk niet opnieuw kunnen waarnemen, wordt bewaard en doorgegeven via de manager en de DAG-structuur. Wij tonen aan dat MACU consistent beter presteert dan sterke single-agent baselines met 3,4-25,5% op desktop (OSWorld) en webnavigatie (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, gunstigere testtijdschaling vertoont, en complexe langetermijn taken oplost waar single-agent CUA's vastlopen. Op Odysseys, een langetermijn webnavigatiebenchmark, verbetert MACU de gemiddelde kloktijd voor taakvoltooiing met {ongeveer} 1,5 keer, wat de doeltreffendheid ervan aantoont bij het versnellen van traditioneel trage CUA-pijplijnen. Onze bevindingen benadrukken dat multi-agent coördinatie een veelbelovende as is om computergebruikagenten te schalen zodat ze langer productief en effectiever kunnen werken. Wij publiceren alle code en interactieve visualisaties op https://jykoh.com/multi-agent-computer-use.

English

Computer use agents (CUAs) today are primarily deployed as single serial agents. This setup is suboptimal for complex long-horizon tasks that benefit from task decomposition, parallel execution, and consistent re-planning based on new information. In this paper, we argue that we should instead move towards evaluating and building multi-agent computer use (MACU) systems. These systems, which emphasize planning and parallel execution, alleviate many of the shortcomings of single-agent CUAs. We propose a general multi-agent setup in which a manager model decomposes computer use tasks as a directed acyclic graph (DAG), encoding relevant dependencies and goals for subagents. At each iteration, the manager dispatches parallel CUA subagents to carry out nodes on the ready frontier of the DAG, and continuously revises the DAG (adding, canceling, or rewriting nodes) as new findings arrive from subagents. This design treats the partially observable environment of computer use as a first class challenge: information that downstream agents may not be able to re-observe are retained and passed forward through the manager and DAG structure. We demonstrate that MACU consistently improves over strong single-agent baselines by 3.4-25.5% on desktop (OSWorld) and web navigation (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, exhibits more favorable test-time scaling, and solves complex long-horizon tasks where single-agent CUAs get stuck. On Odysseys, a long-horizon web navigation benchmark, MACU improves average task completion wall-clock time by {sim} 1.5 times, demonstrating its efficacy in speeding up traditionally slow CUA pipelines. Our findings highlight that multi-agent coordination is a promising axis for scaling computer use agents to work productively for longer and more effectively. We release all code and interactive visualizations at https://jykoh.com/multi-agent-computer-use.