ScaleCUA: クロスプラットフォームデータを用いたオープンソースコンピュータ利用エージェントのスケーリング

要旨

Vision-Language Models（VLM）は、GUIを自律的に操作するコンピュータ利用エージェント（CUA）を可能にし、大きな可能性を示していますが、大規模なオープンソースのコンピュータ利用データと基盤モデルの不足により進展が制限されています。本研究では、オープンソースCUAのスケーリングに向けた一歩として、ScaleCUAを紹介します。ScaleCUAは、6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模データセットを提供し、自動化エージェントと人間の専門家を統合した閉ループパイプラインを通じて構築されています。このスケールアップされたデータでトレーニングされたScaleCUAは、プラットフォームをまたいでシームレスに動作することができます。具体的には、ベースラインを大幅に上回る成果（WebArena-Lite-v2で+26.6、ScreenSpot-Proで+10.7）を示し、新たな最先端の結果（MMBench-GUI L1-Hardで94.4%、OSWorld-Gで60.6%、WebArena-Lite-v2で47.4%）を達成しました。これらの結果は、汎用コンピュータ利用エージェントにおけるデータ駆動型スケーリングの力を強調しています。今後の研究を進めるため、データ、モデル、コードを公開します：https://github.com/OpenGVLab/ScaleCUA。

English

Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.