ScaleCUA : Mise à l'échelle des agents d'utilisation informatique open-source avec des données multiplateformes
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
September 18, 2025
papers.authors: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont permis le développement d'agents d'utilisation informatique (CUAs) capables d'opérer de manière autonome sur des interfaces graphiques, démontrant un potentiel considérable. Cependant, les progrès sont limités par le manque de données d'utilisation informatique à grande échelle et de modèles de base open-source. Dans ce travail, nous présentons ScaleCUA, une étape vers la mise à l'échelle des CUAs open-source. Il propose un jeu de données à grande échelle couvrant 6 systèmes d'exploitation et 3 domaines de tâches, construit via un pipeline en boucle fermée associant des agents automatisés à des experts humains. Entraîné sur ces données élargies, ScaleCUA peut fonctionner de manière fluide sur différentes plateformes. Plus précisément, il montre des gains significatifs par rapport aux modèles de référence (+26,6 sur WebArena-Lite-v2, +10,7 sur ScreenSpot-Pro) et établit de nouveaux records (94,4 % sur MMBench-GUI L1-Hard, 60,6 % sur OSWorld-G, 47,4 % sur WebArena-Lite-v2). Ces résultats soulignent la puissance de la mise à l'échelle basée sur les données pour les agents d'utilisation informatique à usage général. Nous publierons les données, modèles et codes pour faire avancer la recherche future : https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that
operate GUIs autonomously, showing great potential, yet progress is limited by
the lack of large-scale, open-source computer use data and foundation models.
In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It
offers a large-scale dataset spanning 6 operating systems and 3 task domains,
built via a closed-loop pipeline uniting automated agents with human experts.
Trained on this scaled-up data, ScaleCUA can operate seamlessly across
platforms. Specifically, it delivers strong gains over baselines (+26.6 on
WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art
results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on
WebArena-Lite-v2). These findings underscore the power of data-driven scaling
for general-purpose computer use agents. We will release data, models, and code
to advance future research: https://github.com/OpenGVLab/ScaleCUA.