ScaleCUA: Escalando Agentes de Uso de Computadoras de Código Abierto con Datos Multiplataforma
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
September 18, 2025
Autores: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs) han permitido el desarrollo de agentes de uso informático (CUAs) que operan interfaces gráficas de usuario (GUIs) de manera autónoma, mostrando un gran potencial, aunque el progreso se ve limitado por la falta de datos de uso informático a gran escala y de modelos base de código abierto. En este trabajo, presentamos ScaleCUA, un paso hacia la escalabilidad de CUAs de código abierto. Ofrece un conjunto de datos a gran escala que abarca 6 sistemas operativos y 3 dominios de tareas, construido mediante una pipeline de ciclo cerrado que combina agentes automatizados con expertos humanos. Entrenado con estos datos ampliados, ScaleCUA puede operar sin problemas en múltiples plataformas. Específicamente, logra mejoras significativas sobre los baselines (+26.6 en WebArena-Lite-v2, +10.7 en ScreenSpot-Pro) y establece nuevos resultados de vanguardia (94.4% en MMBench-GUI L1-Hard, 60.6% en OSWorld-G, 47.4% en WebArena-Lite-v2). Estos hallazgos subrayan el poder del escalado basado en datos para agentes de uso informático de propósito general. Publicaremos los datos, modelos y código para impulsar futuras investigaciones: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that
operate GUIs autonomously, showing great potential, yet progress is limited by
the lack of large-scale, open-source computer use data and foundation models.
In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It
offers a large-scale dataset spanning 6 operating systems and 3 task domains,
built via a closed-loop pipeline uniting automated agents with human experts.
Trained on this scaled-up data, ScaleCUA can operate seamlessly across
platforms. Specifically, it delivers strong gains over baselines (+26.6 on
WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art
results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on
WebArena-Lite-v2). These findings underscore the power of data-driven scaling
for general-purpose computer use agents. We will release data, models, and code
to advance future research: https://github.com/OpenGVLab/ScaleCUA.