UltraCUA : Un modèle fondamental pour les agents d'utilisation informatique avec action hybride
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
October 20, 2025
papers.authors: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI
papers.abstract
Les agents multimodaux pour l'utilisation informatique reposent exclusivement sur des actions primitives (cliquer, taper, faire défiler) qui nécessitent un ancrage visuel précis et des chaînes d'exécution longues, entraînant des échecs en cascade et des goulots d'étranglement de performance. Alors que d'autres agents exploitent des interfaces programmatiques riches (API, serveurs MCP, outils), les agents d'utilisation informatique (CUA) restent isolés de ces capacités. Nous présentons UltraCUA, un modèle de base qui comble cet écart grâce à une action hybride — intégrant de manière transparente les primitives d'interface graphique avec des appels d'outils programmatiques de haut niveau. Pour y parvenir, notre approche comprend quatre composants clés : (1) un pipeline automatisé qui met à l'échelle des outils programmatiques à partir de la documentation logicielle, de dépôts open-source et de la génération de code ; (2) un moteur de données synthétiques produisant plus de 17 000 tâches vérifiables couvrant des scénarios réels d'utilisation informatique ; (3) une collection à grande échelle de trajectoires d'actions hybrides de haute qualité, incluant à la fois des actions d'interface graphique de bas niveau et des appels d'outils programmatiques de haut niveau ; et (4) un pipeline d'entraînement en deux étapes combinant un ajustement fin supervisé avec un apprentissage par renforcement en ligne, permettant une alternance stratégique entre actions de bas niveau et de haut niveau. Les expériences avec nos modèles de 7B et 32B démontrent des améliorations substantielles par rapport aux agents de pointe. Sur OSWorld, les modèles UltraCUA atteignent une amélioration relative moyenne de 22 % par rapport aux modèles de base, tout en étant 11 % plus rapides en termes d'étapes. Une évaluation hors domaine sur WindowsAgentArena montre que notre modèle atteint un taux de réussite de 21,7 %, surpassant les modèles de référence entraînés sur des données Windows. Le mécanisme d'action hybride s'avère crucial, réduisant la propagation des erreurs tout en maintenant l'efficacité d'exécution.
English
Multimodal agents for computer use rely exclusively on primitive actions
(click, type, scroll) that require accurate visual grounding and lengthy
execution chains, leading to cascading failures and performance bottlenecks.
While other agents leverage rich programmatic interfaces (APIs, MCP servers,
tools), computer-use agents (CUAs) remain isolated from these capabilities. We
present UltraCUA, a foundation model that bridges this gap through hybrid
action -- seamlessly integrating GUI primitives with high-level programmatic
tool calls. To achieve this, our approach comprises four key components: (1) an
automated pipeline that scales programmatic tools from software documentation,
open-source repositories, and code generation; (2) a synthetic data engine
producing over 17,000 verifiable tasks spanning real-world computer-use
scenarios; (3) a large-scale high-quality hybrid action trajectory collection
with both low-level GUI actions and high-level programmatic tool calls; and (4)
a two-stage training pipeline combining supervised fine-tuning with online
reinforcement learning, enabling strategic alternation between low-level and
high-level actions. Experiments with our 7B and 32B models demonstrate
substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA
models achieve an average 22% relative improvement over base models, while
being 11% faster in terms of steps. Out-of-domain evaluation on
WindowsAgentArena shows our model reaches 21.7% success rate, outperforming
baselines trained on Windows data. The hybrid action mechanism proves critical,
reducing error propagation while maintaining execution efficiency.