ChatPaper.aiChatPaper

ScaleCUA: Масштабирование открытых агентов компьютерного взаимодействия с использованием кросс-платформенных данных

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

September 18, 2025
Авторы: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
cs.AI

Аннотация

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), позволили создать агентов для работы с компьютерами (Computer Use Agents, CUAs), которые автономно взаимодействуют с графическими интерфейсами, демонстрируя значительный потенциал. Однако прогресс ограничен отсутствием крупномасштабных открытых данных и базовых моделей для работы с компьютерами. В данной работе мы представляем ScaleCUA — шаг к масштабированию открытых CUAs. Мы предлагаем крупномасштабный набор данных, охватывающий 6 операционных систем и 3 предметные области, созданный с помощью замкнутого цикла, объединяющего автоматизированных агентов и экспертов-людей. Обученная на этих масштабированных данных, ScaleCUA способна работать на различных платформах без затруднений. В частности, она демонстрирует значительное улучшение по сравнению с базовыми моделями (+26,6 на WebArena-Lite-v2, +10,7 на ScreenSpot-Pro) и устанавливает новые рекорды (94,4% на MMBench-GUI L1-Hard, 60,6% на OSWorld-G, 47,4% на WebArena-Lite-v2). Эти результаты подчеркивают силу масштабирования на основе данных для создания универсальных агентов работы с компьютерами. Мы опубликуем данные, модели и код для содействия будущим исследованиям: https://github.com/OpenGVLab/ScaleCUA.
English
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.
PDF1005September 19, 2025