ToolCUA: Hacia la orquestación óptima de rutas de herramientas GUI para agentes de uso informático
ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
May 12, 2026
Autores: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye
cs.AI
Resumen
Los Agentes de Uso de Computadoras (CUAs) pueden actuar tanto mediante acciones atómicas de GUI, como clic y escritura, como mediante llamadas de herramientas de alto nivel, como operaciones de archivos basadas en API, pero este espacio de acciones híbrido a menudo les genera incertidumbre sobre cuándo continuar con acciones de GUI o cambiar a herramientas, lo que conduce a rutas de ejecución subóptimas. Esta dificultad surge de la escasez de trayectorias intercaladas GUI-Herramienta de alta calidad, el costo y la fragilidad de recopilar trayectorias reales de herramientas, y la falta de supervisión a nivel de trayectoria para la selección de rutas GUI-Herramienta. En este artículo, proponemos ToolCUA, un agente de extremo a extremo diseñado para aprender la selección óptima de rutas GUI-Herramienta mediante un paradigma de entrenamiento por etapas. Primero, introducimos un Pipeline de Escalado de Trayectorias Intercaladas GUI-Herramienta que reutiliza abundantes trayectorias GUI estáticas y sintetiza una biblioteca de herramientas fundamentada, permitiendo diversas trayectorias GUI-Herramienta sin necesidad de ingeniería manual ni recopilación de trayectorias reales de herramientas. Luego, realizamos RFT GUI con Inicialización de Herramientas, combinando un calentamiento SFT con RL de un solo turno para mejorar las decisiones en puntos críticos de cambio entre GUI y herramientas. Finalmente, optimizamos ToolCUA con RL Agentiva en Línea en un entorno GUI-Herramienta de alta fidelidad, guiado por una Recompensa de Ruta Eficiente en Herramientas que fomenta el uso adecuado de herramientas y rutas de ejecución más cortas. Los experimentos en OSWorld-MCP muestran que ToolCUA alcanza un 46.85% de precisión, una mejora relativa de aproximadamente el 66% sobre la línea base, estableciendo un nuevo estado del arte entre modelos de escala comparable. También mejora en un 3.9% respecto a configuraciones solo GUI, demostrando una orquestación efectiva GUI-Herramienta. Los resultados sugieren además que el entrenamiento en un espacio de acciones híbrido constituye un paradigma prometedor para agentes digitales del mundo real. Código abierto disponible en: https://x-plug.github.io/ToolCUA/
English
Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. It also improves by 3.9% over GUI-only settings, demonstrating effective GUI-Tool orchestration. The results further suggest that training in a hybrid action space is a promising paradigm for real-world digital agents. Open-sourced here: https://x-plug.github.io/ToolCUA/