ScaleCUA: Schaalbaarheid van Open-Source Computergebruiksagenten met Cross-Platform Data

Samenvatting

Vision-Language Models (VLMs) hebben computergebruiksagenten (CUAs) mogelijk gemaakt die GUI's autonoom bedienen, wat veel potentieel laat zien, maar de vooruitgang wordt beperkt door het gebrek aan grootschalige, open-source computergebruiksdata en foundation-modellen. In dit werk introduceren we ScaleCUA, een stap richting het opschalen van open-source CUAs. Het biedt een grootschalige dataset die 6 besturingssystemen en 3 taakdomeinen omvat, opgebouwd via een gesloten-lus pijplijn die geautomatiseerde agenten combineert met menselijke experts. Getraind op deze opgeschaalde data, kan ScaleCUA naadloos functioneren over verschillende platforms. Specifiek behaalt het sterke verbeteringen ten opzichte van baseline-modellen (+26.6 op WebArena-Lite-v2, +10.7 op ScreenSpot-Pro) en stelt het nieuwe state-of-the-art resultaten vast (94.4% op MMBench-GUI L1-Hard, 60.6% op OSWorld-G, 47.4% op WebArena-Lite-v2). Deze bevindingen onderstrepen de kracht van data-gedreven opschaling voor algemene computergebruiksagenten. We zullen data, modellen en code vrijgeven om toekomstig onderzoek te bevorderen: https://github.com/OpenGVLab/ScaleCUA.

English

Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.

ScaleCUA: Schaalbaarheid van Open-Source Computergebruiksagenten met Cross-Platform Data

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

Samenvatting

Support