UltraCUA: Un Modelo Fundacional para Agentes de Uso Informático con Acción Híbrida
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
October 20, 2025
Autores: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI
Resumen
Los agentes multimodales para el uso de computadoras dependen exclusivamente de acciones primitivas (clic, escribir, desplazarse) que requieren un anclaje visual preciso y cadenas de ejecución prolongadas, lo que conduce a fallos en cascada y cuellos de botella en el rendimiento. Mientras que otros agentes aprovechan interfaces programáticas avanzadas (APIs, servidores MCP, herramientas), los agentes de uso de computadoras (CUAs, por sus siglas en inglés) permanecen aislados de estas capacidades. Presentamos UltraCUA, un modelo fundacional que cierra esta brecha mediante acciones híbridas, integrando de manera fluida las primitivas de interfaz gráfica (GUI) con llamadas a herramientas programáticas de alto nivel. Para lograrlo, nuestro enfoque consta de cuatro componentes clave: (1) una canalización automatizada que escala herramientas programáticas a partir de documentación de software, repositorios de código abierto y generación de código; (2) un motor de datos sintéticos que produce más de 17,000 tareas verificables que abarcan escenarios reales de uso de computadoras; (3) una colección a gran escala de trayectorias de acciones híbridas de alta calidad, que incluyen tanto acciones de GUI de bajo nivel como llamadas a herramientas programáticas de alto nivel; y (4) una canalización de entrenamiento en dos etapas que combina ajuste fino supervisado con aprendizaje por refuerzo en línea, permitiendo la alternancia estratégica entre acciones de bajo y alto nivel. Los experimentos con nuestros modelos de 7B y 32B demuestran mejoras sustanciales sobre los agentes más avanzados. En OSWorld, los modelos UltraCUA logran una mejora relativa promedio del 22% sobre los modelos base, siendo un 11% más rápidos en términos de pasos. La evaluación fuera de dominio en WindowsAgentArena muestra que nuestro modelo alcanza una tasa de éxito del 21.7%, superando a los baselines entrenados con datos de Windows. El mecanismo de acción híbrida resulta crítico, reduciendo la propagación de errores mientras mantiene la eficiencia en la ejecución.
English
Multimodal agents for computer use rely exclusively on primitive actions
(click, type, scroll) that require accurate visual grounding and lengthy
execution chains, leading to cascading failures and performance bottlenecks.
While other agents leverage rich programmatic interfaces (APIs, MCP servers,
tools), computer-use agents (CUAs) remain isolated from these capabilities. We
present UltraCUA, a foundation model that bridges this gap through hybrid
action -- seamlessly integrating GUI primitives with high-level programmatic
tool calls. To achieve this, our approach comprises four key components: (1) an
automated pipeline that scales programmatic tools from software documentation,
open-source repositories, and code generation; (2) a synthetic data engine
producing over 17,000 verifiable tasks spanning real-world computer-use
scenarios; (3) a large-scale high-quality hybrid action trajectory collection
with both low-level GUI actions and high-level programmatic tool calls; and (4)
a two-stage training pipeline combining supervised fine-tuning with online
reinforcement learning, enabling strategic alternation between low-level and
high-level actions. Experiments with our 7B and 32B models demonstrate
substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA
models achieve an average 22% relative improvement over base models, while
being 11% faster in terms of steps. Out-of-domain evaluation on
WindowsAgentArena shows our model reaches 21.7% success rate, outperforming
baselines trained on Windows data. The hybrid action mechanism proves critical,
reducing error propagation while maintaining execution efficiency.