ChatPaper.aiChatPaper

ToolCUA : Vers une orchestration optimale des parcours d'outils GUI pour les agents d'utilisation d'ordinateur

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

May 12, 2026
Auteurs: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
cs.AI

Résumé

Les Agents d'Utilisation d'Ordinateur (CUAs) peuvent agir à la fois par des actions GUI atomiques, telles que cliquer et taper, et par des appels d'outils de haut niveau, comme les opérations sur fichiers via API, mais cet espace d'actions hybride les laisse souvent incertains quant au moment de poursuivre avec des actions GUI ou de passer aux outils, ce qui conduit à des chemins d'exécution sous-optimaux. Cette difficulté provient de la rareté des trajectoires entrelacées GUI-Outil de haute qualité, du coût et de la fragilité de la collecte de trajectoires réelles d'outils, et du manque de supervision au niveau des trajectoires pour la sélection du chemin GUI-Outil. Dans cet article, nous proposons ToolCUA, un agent de bout en bout conçu pour apprendre la sélection optimale du chemin GUI-Outil via un paradigme d'entraînement par étapes. Nous introduisons d'abord un Pipeline de mise à l'échelle des trajectoires entrelacées GUI-Outil qui réutilise des trajectoires GUI statiques abondantes et synthétise une bibliothèque d'outils ancrée, permettant de générer diverses trajectoires GUI-Outil sans ingénierie manuelle ni collecte de trajectoires réelles d'outils. Nous effectuons ensuite un RFT GUI amorcé par les outils, combinant un SFT d'échauffement avec du RL à un tour pour améliorer les décisions aux points critiques de commutation GUI-Outil. Enfin, nous optimisons ToolCUA avec du RL agentique en ligne dans un environnement GUI-Outil haute fidélité, guidé par une Récompense de chemin économe en outils qui encourage l'utilisation appropriée des outils et des chemins d'exécution plus courts. Les expériences sur OSWorld-MCP montrent que ToolCUA atteint une précision de 46,85 %, soit une amélioration relative d'environ 66 % par rapport à la baseline, établissant un nouvel état de l'art parmi les modèles d'échelle comparable. Il améliore également de 3,9 % par rapport aux configurations uniquement GUI, démontrant une orchestration GUI-Outil efficace. Les résultats suggèrent en outre que l'entraînement dans un espace d'actions hybride constitue un paradigme prometteur pour les agents numériques réels. Open-sourcé ici : https://x-plug.github.io/ToolCUA/
English
Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. It also improves by 3.9% over GUI-only settings, demonstrating effective GUI-Tool orchestration. The results further suggest that training in a hybrid action space is a promising paradigm for real-world digital agents. Open-sourced here: https://x-plug.github.io/ToolCUA/
PDF231May 14, 2026