ToolCUA: К оптимальной оркестрации путей GUI-инструментов для агентов использования компьютера
ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
May 12, 2026
Авторы: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
cs.AI
Аннотация
Агенты использования компьютера (Computer Use Agents, CUAs) могут действовать как через атомарные GUI-действия, такие как клик и ввод текста, так и через высокоуровневые вызовы инструментов, например, API-операции с файлами, однако это гибридное пространство действий часто оставляет их в неопределённости относительно того, когда продолжать GUI-действия или переключаться на инструменты, что приводит к неоптимальным путям выполнения. Эта трудность проистекает из нехватки высококачественных перемежающихся GUI-инструментальных траекторий, высокой стоимости и хрупкости сбора реальных траекторий инструментов, а также отсутствия контроля на уровне траекторий для выбора пути между GUI и инструментами. В данной статье мы предлагаем ToolCUA — сквозной агент, предназначенный для обучения оптимальному выбору пути между GUI и инструментами с помощью поэтапной парадигмы обучения. Сначала мы вводим конвейер масштабирования перемежающихся GUI-инструментальных траекторий (Interleaved GUI-Tool Trajectory Scaling Pipeline), который перепрофилирует имеющиеся в изобилии статические GUI-траектории и синтезирует обоснованную библиотеку инструментов, позволяя получать разнообразные GUI-инструментальные траектории без ручного проектирования или сбора реальных траекторий инструментов. Затем мы выполняем Tool-Bootstrapped GUI RFT, объединяя разогревочную SFT с одношаговым RL, чтобы улучшить принятие решений в критических точках переключения между GUI и инструментами. Наконец, мы оптимизируем ToolCUA с помощью онлайн-агентного RL в высокоточной среде GUI-инструмент, руководствуясь наградой за эффективный путь использования инструментов (Tool-Efficient Path Reward), которая поощряет разумное использование инструментов и более короткие пути выполнения. Эксперименты на OSWorld-MCP показывают, что ToolCUA достигает точности 46,85%, что представляет собой относительное улучшение примерно на 66% по сравнению с базовым уровнем, достигая нового современного уровня среди моделей сопоставимого масштаба. Он также улучшает результат на 3,9% по сравнению с настройками, использующими только GUI, демонстрируя эффективную оркестрацию GUI и инструментов. Результаты также показывают, что обучение в гибридном пространстве действий является перспективной парадигмой для реальных цифровых агентов. Код открыт по адресу: https://x-plug.github.io/ToolCUA/
English
Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. It also improves by 3.9% over GUI-only settings, demonstrating effective GUI-Tool orchestration. The results further suggest that training in a hybrid action space is a promising paradigm for real-world digital agents. Open-sourced here: https://x-plug.github.io/ToolCUA/