ChatPaper.aiChatPaper

ScaleCUA: Scalabilità di Agenti di Utilizzo del Computer Open-Source con Dati Cross-Platform

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

September 18, 2025
Autori: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) hanno abilitato agenti di utilizzo del computer (CUAs) che operano autonomamente sulle interfacce grafiche (GUIs), dimostrando un grande potenziale, sebbene i progressi siano limitati dalla mancanza di dati su larga scala e open-source relativi all’utilizzo del computer e di modelli di base. In questo lavoro, introduciamo ScaleCUA, un passo verso la scalabilità di CUAs open-source. Offre un dataset su larga scala che copre 6 sistemi operativi e 3 domini di attività, costruito attraverso una pipeline a ciclo chiuso che unisce agenti automatizzati ed esperti umani. Addestrato su questi dati scalati, ScaleCUA può operare in modo fluido su diverse piattaforme. In particolare, ottiene miglioramenti significativi rispetto ai baseline (+26,6 su WebArena-Lite-v2, +10,7 su ScreenSpot-Pro) e stabilisce nuovi risultati all’avanguardia (94,4% su MMBench-GUI L1-Hard, 60,6% su OSWorld-G, 47,4% su WebArena-Lite-v2). Questi risultati sottolineano il potere della scalabilità basata sui dati per agenti di utilizzo del computer a scopo generale. Rilasceremo dati, modelli e codice per promuovere la ricerca futura: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.
PDF1075September 19, 2025