ToolCUA: Zur optimalen GUI-Tool-Pfad-Orchestrierung für Computer-Use-Agenten
ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
May 12, 2026
Autoren: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
cs.AI
Zusammenfassung
Computer Use Agents (CUAs) können sowohl über atomare GUI-Aktionen, wie Klicken und Tippen, als auch über hochrangige Tool-Aufrufe, wie API-basierte Dateioperationen, agieren. Dieser hybride Aktionsraum führt jedoch oft zu Unsicherheit darüber, ob mit GUI-Aktionen fortgefahren oder auf Tools umgeschaltet werden soll, was suboptimale Ausführungspfade zur Folge hat. Diese Schwierigkeit ist auf die Knappheit hochwertiger, verschränkter GUI-Tool-Trajektorien, die Kosten und Anfälligkeit der Erfassung realer Tool-Trajektorien sowie das Fehlen einer Trajektorien-basierten Überwachung für die GUI-Tool-Pfadauswahl zurückzuführen. In diesem Beitrag schlagen wir ToolCUA vor, einen End-to-End-Agenten, der eine optimale GUI-Tool-Pfadauswahl durch ein gestaffeltes Trainingsparadigma erlernt. Zunächst führen wir eine Interleaved GUI-Tool Trajectory Scaling Pipeline ein, die reichlich vorhandene statische GUI-Trajektorien umnutzt und eine fundierte Tool-Bibliothek synthetisiert, um vielfältige GUI-Tool-Trajektorien ohne manuellen Aufwand oder die Erfassung realer Tool-Trajektorien zu ermöglichen. Anschließend führen wir Tool-Bootstrapped GUI RFT durch, das Warmup-SFT mit Single-Turn-RL kombiniert, um Entscheidungen an kritischen GUI-Tool-Umschaltpunkten zu verbessern. Abschließend optimieren wir ToolCUA mittels Online Agentic RL in einer hochpräzisen GUI-Tool-Umgebung, gesteuert durch eine Tool-effiziente Pfadbelohnung, die eine angemessene Tool-Nutzung und kürzere Ausführungspfade fördert. Experimente auf OSWorld-MCP zeigen, dass ToolCUA eine Genauigkeit von 46,85 % erreicht, eine relative Verbesserung von etwa 66 % gegenüber der Baseline, und damit einen neuen Stand der Technik für Modelle vergleichbarer Größe setzt. Zudem verbessert es sich um 3,9 % gegenüber reinen GUI-Umgebungen, was eine effektive GUI-Tool-Orchestrierung belegt. Die Ergebnisse deuten weiterhin darauf hin, dass das Training in einem hybriden Aktionsraum ein vielversprechendes Paradigma für reale digitale Agenten darstellt. Open-Source verfügbar unter: https://x-plug.github.io/ToolCUA/
English
Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. It also improves by 3.9% over GUI-only settings, demonstrating effective GUI-Tool orchestration. The results further suggest that training in a hybrid action space is a promising paradigm for real-world digital agents. Open-sourced here: https://x-plug.github.io/ToolCUA/