ScaleCUA: Escalonando Agentes de Uso de Computador de Código Aberto com Dados Multiplataforma
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
September 18, 2025
Autores: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) têm possibilitado agentes de uso de computador (CUAs) que operam interfaces gráficas (GUIs) de forma autônoma, demonstrando grande potencial, embora o progresso seja limitado pela escassez de dados de uso de computador em larga escala e modelos de base de código aberto. Neste trabalho, apresentamos o ScaleCUA, um passo em direção à escalabilidade de CUAs de código aberto. Ele oferece um conjunto de dados em larga escala abrangendo 6 sistemas operacionais e 3 domínios de tarefas, construído por meio de um pipeline de ciclo fechado que une agentes automatizados a especialistas humanos. Treinado com esses dados ampliados, o ScaleCUA pode operar de forma contínua em diversas plataformas. Especificamente, ele apresenta ganhos significativos em relação às linhas de base (+26,6 no WebArena-Lite-v2, +10,7 no ScreenSpot-Pro) e estabelece novos resultados de ponta (94,4% no MMBench-GUI L1-Hard, 60,6% no OSWorld-G, 47,4% no WebArena-Lite-v2). Esses achados destacam o poder da escalabilidade impulsionada por dados para agentes de uso de computador de propósito geral. Disponibilizaremos dados, modelos e código para impulsionar pesquisas futuras: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that
operate GUIs autonomously, showing great potential, yet progress is limited by
the lack of large-scale, open-source computer use data and foundation models.
In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It
offers a large-scale dataset spanning 6 operating systems and 3 task domains,
built via a closed-loop pipeline uniting automated agents with human experts.
Trained on this scaled-up data, ScaleCUA can operate seamlessly across
platforms. Specifically, it delivers strong gains over baselines (+26.6 on
WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art
results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on
WebArena-Lite-v2). These findings underscore the power of data-driven scaling
for general-purpose computer use agents. We will release data, models, and code
to advance future research: https://github.com/OpenGVLab/ScaleCUA.