ChatPaper.aiChatPaper

ZeroGUI: Automatisierung des Online-GUI-Lernens ohne menschlichen Aufwand

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

May 29, 2025
Autoren: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI

Zusammenfassung

Die rasante Weiterentwicklung großer Vision-Language-Modelle (VLMs) hat die Entwicklung rein visueller GUI-Agenten vorangetrieben, die in der Lage sind, grafische Benutzeroberflächen (GUIs) wahrzunehmen und zu bedienen, um Benutzeranweisungen autonom auszuführen. Bisherige Ansätze verwenden jedoch meist ein Offline-Lernframework, das zwei zentrale Einschränkungen aufweist: (1) eine starke Abhängigkeit von hochwertigen manuellen Annotationen für die Elementlokalisierung und Aktionsüberwachung sowie (2) eine begrenzte Anpassungsfähigkeit an dynamische und interaktive Umgebungen. Um diese Einschränkungen zu überwinden, schlagen wir ZeroGUI vor, ein skalierbares Online-Lernframework zur Automatisierung des Trainings von GUI-Agenten ohne menschlichen Aufwand. Konkret integriert ZeroGUI (i) eine VLM-basierte automatische Aufgaben generierung, um vielfältige Trainingsziele aus dem aktuellen Umgebungszustand abzuleiten, (ii) eine VLM-basierte automatische Belohnungs schätzung, um den Aufgaben erfolg ohne manuell erstellte Bewertungsfunktionen zu bewerten, und (iii) zweistufiges Online-Reinforcement-Learning, um kontinuierlich mit GUI-Umgebungen zu interagieren und daraus zu lernen. Experimente mit zwei fortschrittlichen GUI-Agenten (UI-TARS und Aguvis) zeigen, dass ZeroGUI die Leistung in den Umgebungen OSWorld und AndroidLab erheblich steigert. Der Code ist unter https://github.com/OpenGVLab/ZeroGUI verfügbar.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-vision-based GUI Agents, capable of perceiving and operating Graphical User Interfaces (GUI) to autonomously fulfill user instructions. However, existing approaches usually adopt an offline learning framework, which faces two core limitations: (1) heavy reliance on high-quality manual annotations for element grounding and action supervision, and (2) limited adaptability to dynamic and interactive environments. To address these limitations, we propose ZeroGUI, a scalable, online learning framework for automating GUI Agent training at Zero human cost. Specifically, ZeroGUI integrates (i) VLM-based automatic task generation to produce diverse training goals from the current environment state, (ii) VLM-based automatic reward estimation to assess task success without hand-crafted evaluation functions, and (iii) two-stage online reinforcement learning to continuously interact with and learn from GUI environments. Experiments on two advanced GUI Agents (UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance across OSWorld and AndroidLab environments. The code is available at https://github.com/OpenGVLab/ZeroGUI.

Summary

AI-Generated Summary

PDF452May 30, 2025