ChatPaper.aiChatPaper

ScaleCUA: Skalierung von Open-Source-Computernutzungsagenten mit plattformübergreifenden Daten

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

September 18, 2025
papers.authors: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI

papers.abstract

Vision-Language Models (VLMs) haben Computer Use Agents (CUAs) ermöglicht, die GUIs autonom bedienen und dabei großes Potenzial gezeigt. Dennoch wird der Fortschritt durch den Mangel an groß angelegten, quelloffenen Computer Use-Daten und Foundation-Modellen begrenzt. In dieser Arbeit stellen wir ScaleCUA vor, einen Schritt zur Skalierung quelloffener CUAs. Es bietet einen umfangreichen Datensatz, der 6 Betriebssysteme und 3 Aufgabenbereiche abdeckt und über eine geschlossene Pipeline erstellt wurde, die automatisierte Agenten mit menschlichen Experten verbindet. Mit diesen skalierten Daten trainiert, kann ScaleCUA nahtlos über Plattformen hinweg agieren. Insbesondere erzielt es deutliche Verbesserungen gegenüber Baselines (+26,6 auf WebArena-Lite-v2, +10,7 auf ScreenSpot-Pro) und setzt neue State-of-the-Art-Ergebnisse (94,4 % auf MMBench-GUI L1-Hard, 60,6 % auf OSWorld-G, 47,4 % auf WebArena-Lite-v2). Diese Ergebnisse unterstreichen die Kraft datengetriebener Skalierung für allgemeine Computer Use Agents. Wir werden Daten, Modelle und Code veröffentlichen, um zukünftige Forschung voranzutreiben: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.
PDF1005September 19, 2025