UltraCUA: Een fundamenteel model voor computergebruiksagenten met hybride actie
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
October 20, 2025
Auteurs: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI
Samenvatting
Multimodale agents voor computergebruik vertrouwen uitsluitend op primitieve acties
(klikken, typen, scrollen) die nauwkeurige visuele verankering en lange
uitvoeringsketens vereisen, wat leidt tot opeenvolgende fouten en prestatieknelpunten.
Terwijl andere agents gebruikmaken van uitgebreide programmatische interfaces (API's, MCP-servers,
tools), blijven computergebruik-agents (CUAs) geïsoleerd van deze mogelijkheden. Wij
presenteren UltraCUA, een foundation-model dat deze kloof overbrugt door middel van hybride
acties – waarbij GUI-primitieven naadloos worden gecombineerd met hoogwaardige programmatische
tool-aanroepen. Om dit te bereiken, bestaat onze aanpak uit vier belangrijke componenten: (1) een
geautomatiseerde pipeline die programmatische tools schaalt op basis van software documentatie,
open-source repositories en codegeneratie; (2) een synthetische data-engine
die meer dan 17.000 verifieerbare taken produceert die realistische computergebruik-
scenario's omvatten; (3) een grootschalige, hoogwaardige verzameling van hybride actietrajecten
met zowel laagniveau GUI-acties als hoogwaardige programmatische tool-aanroepen; en (4)
een tweefasig trainingspipeline die supervised fine-tuning combineert met online
reinforcement learning, waardoor strategische afwisseling tussen laagniveau- en
hoogwaardige acties mogelijk wordt. Experimenten met onze 7B- en 32B-modellen tonen
aanzienlijke verbeteringen ten opzichte van state-of-the-art agents. Op OSWorld behalen
UltraCUA-modellen een gemiddelde relatieve verbetering van 22% ten opzichte van basismodellen,
terwijl ze 11% sneller zijn in termen van stappen. Out-of-domain evaluatie op
WindowsAgentArena laat zien dat ons model een slagingspercentage van 21,7% bereikt, wat
beter is dan baseline-modellen die op Windows-data zijn getraind. Het hybride actiemechanisme
blijkt cruciaal, waardoor foutpropagatie wordt verminderd terwijl de uitvoeringsefficiëntie
behouden blijft.
English
Multimodal agents for computer use rely exclusively on primitive actions
(click, type, scroll) that require accurate visual grounding and lengthy
execution chains, leading to cascading failures and performance bottlenecks.
While other agents leverage rich programmatic interfaces (APIs, MCP servers,
tools), computer-use agents (CUAs) remain isolated from these capabilities. We
present UltraCUA, a foundation model that bridges this gap through hybrid
action -- seamlessly integrating GUI primitives with high-level programmatic
tool calls. To achieve this, our approach comprises four key components: (1) an
automated pipeline that scales programmatic tools from software documentation,
open-source repositories, and code generation; (2) a synthetic data engine
producing over 17,000 verifiable tasks spanning real-world computer-use
scenarios; (3) a large-scale high-quality hybrid action trajectory collection
with both low-level GUI actions and high-level programmatic tool calls; and (4)
a two-stage training pipeline combining supervised fine-tuning with online
reinforcement learning, enabling strategic alternation between low-level and
high-level actions. Experiments with our 7B and 32B models demonstrate
substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA
models achieve an average 22% relative improvement over base models, while
being 11% faster in terms of steps. Out-of-domain evaluation on
WindowsAgentArena shows our model reaches 21.7% success rate, outperforming
baselines trained on Windows data. The hybrid action mechanism proves critical,
reducing error propagation while maintaining execution efficiency.