ZeroGUI: Automazione dell'Apprendimento di GUI Online a Costo Umano Zero
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Autori: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Abstract
Il rapido progresso dei grandi modelli visione-linguaggio (VLMs) ha favorito lo sviluppo di agenti GUI basati esclusivamente sulla visione, in grado di percepire e operare interfacce grafiche (GUI) per soddisfare autonomamente le istruzioni dell'utente. Tuttavia, gli approcci esistenti adottano solitamente un framework di apprendimento offline, che presenta due limitazioni principali: (1) una forte dipendenza da annotazioni manuali di alta qualità per il grounding degli elementi e la supervisione delle azioni, e (2) una limitata adattabilità a ambienti dinamici e interattivi. Per affrontare queste limitazioni, proponiamo ZeroGUI, un framework scalabile di apprendimento online per automatizzare l'addestramento degli agenti GUI a costo umano zero. Nello specifico, ZeroGUI integra (i) la generazione automatica di task basata su VLM per produrre obiettivi di addestramento diversificati dallo stato attuale dell'ambiente, (ii) la stima automatica delle ricompense basata su VLM per valutare il successo dei task senza funzioni di valutazione manuali, e (iii) un apprendimento per rinforzo online a due stadi per interagire continuamente con gli ambienti GUI e apprendere da essi. Esperimenti condotti su due avanzati agenti GUI (UI-TARS e Aguvis) dimostrano che ZeroGUI migliora significativamente le prestazioni negli ambienti OSWorld e AndroidLab. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/ZeroGUI.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.