ZeroGUI: Automatisierung des Online-GUI-Lernens ohne menschlichen Aufwand
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Autoren: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung großer Vision-Language-Modelle (VLMs) hat die Entwicklung rein visueller GUI-Agenten vorangetrieben, die in der Lage sind, grafische Benutzeroberflächen (GUIs) wahrzunehmen und zu bedienen, um Benutzeranweisungen autonom auszuführen. Bisherige Ansätze verwenden jedoch meist ein Offline-Lernframework, das zwei zentrale Einschränkungen aufweist: (1) eine starke Abhängigkeit von hochwertigen manuellen Annotationen für die Elementlokalisierung und Aktionsüberwachung sowie (2) eine begrenzte Anpassungsfähigkeit an dynamische und interaktive Umgebungen. Um diese Einschränkungen zu überwinden, schlagen wir ZeroGUI vor, ein skalierbares Online-Lernframework zur Automatisierung des Trainings von GUI-Agenten ohne menschlichen Aufwand. Konkret integriert ZeroGUI (i) eine VLM-basierte automatische Aufgaben generierung, um vielfältige Trainingsziele aus dem aktuellen Umgebungszustand abzuleiten, (ii) eine VLM-basierte automatische Belohnungs schätzung, um den Aufgaben erfolg ohne manuell erstellte Bewertungsfunktionen zu bewerten, und (iii) zweistufiges Online-Reinforcement-Learning, um kontinuierlich mit GUI-Umgebungen zu interagieren und daraus zu lernen. Experimente mit zwei fortschrittlichen GUI-Agenten (UI-TARS und Aguvis) zeigen, dass ZeroGUI die Leistung in den Umgebungen OSWorld und AndroidLab erheblich steigert. Der Code ist unter https://github.com/OpenGVLab/ZeroGUI verfügbar.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.Summary
AI-Generated Summary