ScaleCUA: Scalabilità di Agenti di Utilizzo del Computer Open-Source con Dati Cross-Platform
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
September 18, 2025
Autori: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno abilitato agenti di utilizzo del computer (CUAs) che operano autonomamente sulle interfacce grafiche (GUIs), dimostrando un grande potenziale, sebbene i progressi siano limitati dalla mancanza di dati su larga scala e open-source relativi all’utilizzo del computer e di modelli di base. In questo lavoro, introduciamo ScaleCUA, un passo verso la scalabilità di CUAs open-source. Offre un dataset su larga scala che copre 6 sistemi operativi e 3 domini di attività, costruito attraverso una pipeline a ciclo chiuso che unisce agenti automatizzati ed esperti umani. Addestrato su questi dati scalati, ScaleCUA può operare in modo fluido su diverse piattaforme. In particolare, ottiene miglioramenti significativi rispetto ai baseline (+26,6 su WebArena-Lite-v2, +10,7 su ScreenSpot-Pro) e stabilisce nuovi risultati all’avanguardia (94,4% su MMBench-GUI L1-Hard, 60,6% su OSWorld-G, 47,4% su WebArena-Lite-v2). Questi risultati sottolineano il potere della scalabilità basata sui dati per agenti di utilizzo del computer a scopo generale. Rilasceremo dati, modelli e codice per promuovere la ricerca futura: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that
operate GUIs autonomously, showing great potential, yet progress is limited by
the lack of large-scale, open-source computer use data and foundation models.
In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It
offers a large-scale dataset spanning 6 operating systems and 3 task domains,
built via a closed-loop pipeline uniting automated agents with human experts.
Trained on this scaled-up data, ScaleCUA can operate seamlessly across
platforms. Specifically, it delivers strong gains over baselines (+26.6 on
WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art
results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on
WebArena-Lite-v2). These findings underscore the power of data-driven scaling
for general-purpose computer use agents. We will release data, models, and code
to advance future research: https://github.com/OpenGVLab/ScaleCUA.