Мультиагентное компьютерное использование

Аннотация

Агенты использования компьютера (CUA) сегодня в основном применяются как одиночные последовательные агенты. Такая конфигурация неоптимальна для сложных долгосрочных задач, которые выигрывают от декомпозиции задач, параллельного выполнения и последовательного перепланирования на основе новой информации. В данной статье мы утверждаем, что следует перейти к оценке и построению мультиагентных систем использования компьютера (MACU). Эти системы, делающие упор на планирование и параллельное выполнение, устраняют многие недостатки одиночных CUA. Мы предлагаем общую мультиагентную настройку, в которой модель-менеджер декомпозирует задачи использования компьютера в виде направленного ациклического графа (DAG), кодируя соответствующие зависимости и цели для подчиненных агентов. На каждой итерации менеджер отправляет параллельных подчиненных CUA для выполнения узлов на готовом фронте DAG и непрерывно пересматривает DAG (добавляя, отменяя или переписывая узлы) по мере поступления новых данных от подчиненных агентов. Такая конструкция рассматривает частично наблюдаемую среду использования компьютера как первостепенную проблему: информация, которую последующие агенты могут быть не в состоянии повторно наблюдать, сохраняется и передается через менеджера и структуру DAG. Мы демонстрируем, что MACU стабильно превосходит сильные одиночные базовые модели на 3,4–25,5% на эталонах для настольных сред (OSWorld) и веб-навигации (Online-Mind2Web, WebTailBench, Odysseys), демонстрирует более благоприятное масштабирование во время тестирования и решает сложные долгосрочные задачи, в которых одиночные CUA застревают. В рамках долгосрочного эталона веб-навигации Odysseys MACU улучшает среднее астрономическое время завершения задачи примерно в 1,5 раза, что подтверждает его эффективность в ускорении традиционно медленных конвейеров CUA. Наши результаты подчеркивают, что мультиагентная координация является перспективным направлением для масштабирования агентов использования компьютера с целью более продуктивной и эффективной работы. Все код и интерактивные визуализации доступны по адресу https://jykoh.com/multi-agent-computer-use.

English

Computer use agents (CUAs) today are primarily deployed as single serial agents. This setup is suboptimal for complex long-horizon tasks that benefit from task decomposition, parallel execution, and consistent re-planning based on new information. In this paper, we argue that we should instead move towards evaluating and building multi-agent computer use (MACU) systems. These systems, which emphasize planning and parallel execution, alleviate many of the shortcomings of single-agent CUAs. We propose a general multi-agent setup in which a manager model decomposes computer use tasks as a directed acyclic graph (DAG), encoding relevant dependencies and goals for subagents. At each iteration, the manager dispatches parallel CUA subagents to carry out nodes on the ready frontier of the DAG, and continuously revises the DAG (adding, canceling, or rewriting nodes) as new findings arrive from subagents. This design treats the partially observable environment of computer use as a first class challenge: information that downstream agents may not be able to re-observe are retained and passed forward through the manager and DAG structure. We demonstrate that MACU consistently improves over strong single-agent baselines by 3.4-25.5% on desktop (OSWorld) and web navigation (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, exhibits more favorable test-time scaling, and solves complex long-horizon tasks where single-agent CUAs get stuck. On Odysseys, a long-horizon web navigation benchmark, MACU improves average task completion wall-clock time by {sim} 1.5 times, demonstrating its efficacy in speeding up traditionally slow CUA pipelines. Our findings highlight that multi-agent coordination is a promising axis for scaling computer use agents to work productively for longer and more effectively. We release all code and interactive visualizations at https://jykoh.com/multi-agent-computer-use.