ScaleCUA: クロスプラットフォームデータを用いたオープンソースコンピュータ利用エージェントのスケーリング
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
September 18, 2025
著者: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI
要旨
Vision-Language Models(VLM)は、GUIを自律的に操作するコンピュータ利用エージェント(CUA)を可能にし、大きな可能性を示していますが、大規模なオープンソースのコンピュータ利用データと基盤モデルの不足により進展が制限されています。本研究では、オープンソースCUAのスケーリングに向けた一歩として、ScaleCUAを紹介します。ScaleCUAは、6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模データセットを提供し、自動化エージェントと人間の専門家を統合した閉ループパイプラインを通じて構築されています。このスケールアップされたデータでトレーニングされたScaleCUAは、プラットフォームをまたいでシームレスに動作することができます。具体的には、ベースラインを大幅に上回る成果(WebArena-Lite-v2で+26.6、ScreenSpot-Proで+10.7)を示し、新たな最先端の結果(MMBench-GUI L1-Hardで94.4%、OSWorld-Gで60.6%、WebArena-Lite-v2で47.4%)を達成しました。これらの結果は、汎用コンピュータ利用エージェントにおけるデータ駆動型スケーリングの力を強調しています。今後の研究を進めるため、データ、モデル、コードを公開します:https://github.com/OpenGVLab/ScaleCUA。
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that
operate GUIs autonomously, showing great potential, yet progress is limited by
the lack of large-scale, open-source computer use data and foundation models.
In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It
offers a large-scale dataset spanning 6 operating systems and 3 task domains,
built via a closed-loop pipeline uniting automated agents with human experts.
Trained on this scaled-up data, ScaleCUA can operate seamlessly across
platforms. Specifically, it delivers strong gains over baselines (+26.6 on
WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art
results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on
WebArena-Lite-v2). These findings underscore the power of data-driven scaling
for general-purpose computer use agents. We will release data, models, and code
to advance future research: https://github.com/OpenGVLab/ScaleCUA.