ChatPaper.aiChatPaper

ScaleCUA: Schaalbaarheid van Open-Source Computergebruiksagenten met Cross-Platform Data

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

September 18, 2025
Auteurs: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI

Samenvatting

Vision-Language Models (VLMs) hebben computergebruiksagenten (CUAs) mogelijk gemaakt die GUI's autonoom bedienen, wat veel potentieel laat zien, maar de vooruitgang wordt beperkt door het gebrek aan grootschalige, open-source computergebruiksdata en foundation-modellen. In dit werk introduceren we ScaleCUA, een stap richting het opschalen van open-source CUAs. Het biedt een grootschalige dataset die 6 besturingssystemen en 3 taakdomeinen omvat, opgebouwd via een gesloten-lus pijplijn die geautomatiseerde agenten combineert met menselijke experts. Getraind op deze opgeschaalde data, kan ScaleCUA naadloos functioneren over verschillende platforms. Specifiek behaalt het sterke verbeteringen ten opzichte van baseline-modellen (+26.6 op WebArena-Lite-v2, +10.7 op ScreenSpot-Pro) en stelt het nieuwe state-of-the-art resultaten vast (94.4% op MMBench-GUI L1-Hard, 60.6% op OSWorld-G, 47.4% op WebArena-Lite-v2). Deze bevindingen onderstrepen de kracht van data-gedreven opschaling voor algemene computergebruiksagenten. We zullen data, modellen en code vrijgeven om toekomstig onderzoek te bevorderen: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.
PDF1075September 19, 2025