ZeroGUI: Automatisering van Online GUI-leren zonder Menselijke Kosten
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Auteurs: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Samenvatting
De snelle vooruitgang van grote Vision-Language Models (VLMs) heeft de ontwikkeling van puur visueel gebaseerde GUI Agents gestimuleerd, die in staat zijn om Grafische Gebruikersinterfaces (GUI) waar te nemen en te bedienen om gebruikersinstructies autonoom uit te voeren. Bestaande benaderingen hanteren echter meestal een offline leerframework, dat te maken heeft met twee kernbeperkingen: (1) een sterke afhankelijkheid van hoogwaardige handmatige annotaties voor elementlocatie en actietoezicht, en (2) beperkte aanpassingsvermogen aan dynamische en interactieve omgevingen. Om deze beperkingen aan te pakken, stellen we ZeroGUI voor, een schaalbaar, online leerframework voor het automatiseren van GUI Agent training zonder menselijke kosten. Specifiek integreert ZeroGUI (i) VLM-gebaseerde automatische taakgeneratie om diverse trainingsdoelen te produceren vanuit de huidige omgevingsstatus, (ii) VLM-gebaseerde automatische beloningsschatting om taaksucces te beoordelen zonder handmatig gemaakte evaluatiefuncties, en (iii) tweefasen online reinforcement learning om continu te interageren met en te leren van GUI-omgevingen. Experimenten met twee geavanceerde GUI Agents (UI-TARS en Aguvis) tonen aan dat ZeroGUI de prestaties aanzienlijk verbetert in zowel OSWorld- als AndroidLab-omgevingen. De code is beschikbaar op https://github.com/OpenGVLab/ZeroGUI.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.