Uso de Computador Multiagente

Resumo

Hoje, os agentes de uso de computador (CUAs) são majoritariamente implantados como agentes seriais únicos. Essa configuração é subótima para tarefas complexas de horizonte longo, que se beneficiam da decomposição de tarefas, execução paralela e replanejamento consistente com base em novas informações. Neste artigo, argumentamos que devemos avançar em direção à avaliação e construção de sistemas multiagente de uso de computador (MACU). Esses sistemas, que enfatizam o planejamento e a execução paralela, aliviam muitas das limitações dos CUAs de agente único. Propomos uma configuração multiagente geral na qual um modelo gerente decompõe tarefas de uso de computador em um grafo acíclico dirigido (DAG), codificando dependências e metas relevantes para os subagentes. A cada iteração, o gerente despacha subagentes CUA paralelos para executar nós na fronteira pronta do DAG e revisa continuamente o DAG (adicionando, cancelando ou reescrevendo nós) à medida que novas descobertas chegam dos subagentes. Esse design trata o ambiente parcialmente observável do uso de computador como um desafio de primeira classe: informações que agentes downstream podem não conseguir reobservar são retidas e passadas adiante por meio do gerente e da estrutura do DAG. Demonstramos que o MACU melhora consistentemente bases fortes de agente único em 3,4–25,5% nos benchmarks de desktop (OSWorld) e navegação web (Online-Mind2Web, WebTailBench, Odysseys), exibe um escalonamento em tempo de teste mais favorável e resolve tarefas complexas de horizonte longo nas quais CUAs de agente único travam. No Odysseys, um benchmark de navegação web de horizonte longo, o MACU melhora o tempo médio real de conclusão de tarefas em aproximadamente 1,5 vezes, demonstrando sua eficácia em acelerar pipelines de CUA tradicionalmente lentos. Nossos achados destacam que a coordenação multiagente é um eixo promissor para escalar agentes de uso de computador a fim de trabalharem por mais tempo e de forma mais produtiva. Disponibilizamos todo o código e visualizações interativas em https://jykoh.com/multi-agent-computer-use.

English

Computer use agents (CUAs) today are primarily deployed as single serial agents. This setup is suboptimal for complex long-horizon tasks that benefit from task decomposition, parallel execution, and consistent re-planning based on new information. In this paper, we argue that we should instead move towards evaluating and building multi-agent computer use (MACU) systems. These systems, which emphasize planning and parallel execution, alleviate many of the shortcomings of single-agent CUAs. We propose a general multi-agent setup in which a manager model decomposes computer use tasks as a directed acyclic graph (DAG), encoding relevant dependencies and goals for subagents. At each iteration, the manager dispatches parallel CUA subagents to carry out nodes on the ready frontier of the DAG, and continuously revises the DAG (adding, canceling, or rewriting nodes) as new findings arrive from subagents. This design treats the partially observable environment of computer use as a first class challenge: information that downstream agents may not be able to re-observe are retained and passed forward through the manager and DAG structure. We demonstrate that MACU consistently improves over strong single-agent baselines by 3.4-25.5% on desktop (OSWorld) and web navigation (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, exhibits more favorable test-time scaling, and solves complex long-horizon tasks where single-agent CUAs get stuck. On Odysseys, a long-horizon web navigation benchmark, MACU improves average task completion wall-clock time by {sim} 1.5 times, demonstrating its efficacy in speeding up traditionally slow CUA pipelines. Our findings highlight that multi-agent coordination is a promising axis for scaling computer use agents to work productively for longer and more effectively. We release all code and interactive visualizations at https://jykoh.com/multi-agent-computer-use.