UltraCUA: Un Modello Fondamentale per Agenti di Utilizzo del Computer con Azione Ibrida
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
October 20, 2025
Autori: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI
Abstract
Gli agenti multimodali per l'uso del computer si basano esclusivamente su azioni primitive (clic, digitazione, scorrimento) che richiedono un accurato grounding visivo e lunghe catene di esecuzione, portando a fallimenti a cascata e colli di bottiglia nelle prestazioni. Mentre altri agenti sfruttano interfacce programmatiche avanzate (API, server MCP, strumenti), gli agenti per l'uso del computer (CUAs) rimangono isolati da queste capacità. Presentiamo UltraCUA, un modello di base che colma questo divario attraverso azioni ibride, integrando in modo fluido primitive GUI con chiamate a strumenti programmatici di alto livello. Per raggiungere questo obiettivo, il nostro approccio comprende quattro componenti chiave: (1) una pipeline automatizzata che scala strumenti programmatici da documentazione software, repository open-source e generazione di codice; (2) un motore di dati sintetici che produce oltre 17.000 task verificabili che coprono scenari reali di uso del computer; (3) una raccolta su larga scala di traiettorie di azioni ibride di alta qualità, comprendenti sia azioni GUI di basso livello che chiamate a strumenti programmatici di alto livello; e (4) una pipeline di addestramento in due fasi che combina fine-tuning supervisionato con apprendimento per rinforzo online, consentendo un'alternanza strategica tra azioni di basso e alto livello. Gli esperimenti con i nostri modelli da 7B e 32B dimostrano miglioramenti sostanziali rispetto agli agenti all'avanguardia. Su OSWorld, i modelli UltraCUA raggiungono un miglioramento relativo medio del 22% rispetto ai modelli base, essendo inoltre l'11% più veloci in termini di passi. La valutazione out-of-domain su WindowsAgentArena mostra che il nostro modello raggiunge un tasso di successo del 21,7%, superando i baseline addestrati su dati Windows. Il meccanismo di azione ibrida si rivela cruciale, riducendo la propagazione degli errori mantenendo al contempo l'efficienza di esecuzione.
English
Multimodal agents for computer use rely exclusively on primitive actions
(click, type, scroll) that require accurate visual grounding and lengthy
execution chains, leading to cascading failures and performance bottlenecks.
While other agents leverage rich programmatic interfaces (APIs, MCP servers,
tools), computer-use agents (CUAs) remain isolated from these capabilities. We
present UltraCUA, a foundation model that bridges this gap through hybrid
action -- seamlessly integrating GUI primitives with high-level programmatic
tool calls. To achieve this, our approach comprises four key components: (1) an
automated pipeline that scales programmatic tools from software documentation,
open-source repositories, and code generation; (2) a synthetic data engine
producing over 17,000 verifiable tasks spanning real-world computer-use
scenarios; (3) a large-scale high-quality hybrid action trajectory collection
with both low-level GUI actions and high-level programmatic tool calls; and (4)
a two-stage training pipeline combining supervised fine-tuning with online
reinforcement learning, enabling strategic alternation between low-level and
high-level actions. Experiments with our 7B and 32B models demonstrate
substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA
models achieve an average 22% relative improvement over base models, while
being 11% faster in terms of steps. Out-of-domain evaluation on
WindowsAgentArena shows our model reaches 21.7% success rate, outperforming
baselines trained on Windows data. The hybrid action mechanism proves critical,
reducing error propagation while maintaining execution efficiency.