Multi-Agenten-Computernutzung

Zusammenfassung

Computer-Use-Agenten (CUAs) werden derzeit hauptsächlich als einzelne serielle Agenten eingesetzt. Diese Konfiguration ist für komplexe Aufgaben mit langem Zeithorizont suboptimal, die von Aufgabenzerlegung, paralleler Ausführung und konsistenter Neuplanung auf Basis neuer Informationen profitieren. In diesem Paper argumentieren wir, dass wir stattdessen dazu übergehen sollten, Multi-Agent-Computer-Use (MACU)-Systeme zu evaluieren und zu entwickeln. Diese Systeme, die Planung und parallele Ausführung betonen, beheben viele der Schwachstellen einzelner CUA-Agenten. Wir schlagen einen allgemeinen Multi-Agenten-Ansatz vor, bei dem ein Managermodell Computer-Use-Aufgaben als gerichteten azyklischen Graphen (DAG) zerlegt, der relevante Abhängigkeiten und Ziele für Unteragenten kodiert. In jeder Iteration delegiert der Manager parallele CUA-Unteragenten zur Bearbeitung von Knoten an der Bereitschaftsgrenze des DAGs und überarbeitet den DAG kontinuierlich (fügt Knoten hinzu, bricht sie ab oder schreibt sie um), sobald neue Erkenntnisse von den Unteragenten eingehen. Dieses Design behandelt die teilweise beobachtbare Umgebung der Computernutzung als zentrale Herausforderung: Informationen, die nachgelagerte Agenten möglicherweise nicht erneut beobachten können, werden über die Manager- und DAG-Struktur aufbewahrt und weitergegeben. Wir zeigen, dass MACU auf Desktop- (OSWorld) und Webnavigations-Benchmarks (Online-Mind2Web, WebTailBench, Odysseys) durchgängig Verbesserungen von 3,4–25,5 % gegenüber starken Einzelagenten-Baselines erzielt, günstigere Testzeit-Skalierung aufweist und komplexe langfristige Aufgaben löst, bei denen einzelne CUA-Agenten feststecken. Bei Odysseys, einem Benchmark für langfristige Webnavigation, verbessert MACU die durchschnittliche Echtzeit für den Aufgabenabschluss um etwa das 1,5-Fache, was seine Wirksamkeit bei der Beschleunigung traditionell langsamer CUA-Pipelines demonstriert. Unsere Ergebnisse unterstreichen, dass Multi-Agenten-Koordination eine vielversprechende Achse für die Skalierung von Computer-Use-Agenten darstellt, um produktiver und effektiver über längere Zeiträume zu arbeiten. Wir veröffentlichen den gesamten Code und interaktive Visualisierungen unter https://jykoh.com/multi-agent-computer-use.

English

Computer use agents (CUAs) today are primarily deployed as single serial agents. This setup is suboptimal for complex long-horizon tasks that benefit from task decomposition, parallel execution, and consistent re-planning based on new information. In this paper, we argue that we should instead move towards evaluating and building multi-agent computer use (MACU) systems. These systems, which emphasize planning and parallel execution, alleviate many of the shortcomings of single-agent CUAs. We propose a general multi-agent setup in which a manager model decomposes computer use tasks as a directed acyclic graph (DAG), encoding relevant dependencies and goals for subagents. At each iteration, the manager dispatches parallel CUA subagents to carry out nodes on the ready frontier of the DAG, and continuously revises the DAG (adding, canceling, or rewriting nodes) as new findings arrive from subagents. This design treats the partially observable environment of computer use as a first class challenge: information that downstream agents may not be able to re-observe are retained and passed forward through the manager and DAG structure. We demonstrate that MACU consistently improves over strong single-agent baselines by 3.4-25.5% on desktop (OSWorld) and web navigation (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, exhibits more favorable test-time scaling, and solves complex long-horizon tasks where single-agent CUAs get stuck. On Odysseys, a long-horizon web navigation benchmark, MACU improves average task completion wall-clock time by {sim} 1.5 times, demonstrating its efficacy in speeding up traditionally slow CUA pipelines. Our findings highlight that multi-agent coordination is a promising axis for scaling computer use agents to work productively for longer and more effectively. We release all code and interactive visualizations at https://jykoh.com/multi-agent-computer-use.