ZeroGUI: Automazione dell'Apprendimento di GUI Online a Costo Umano Zero

Abstract

Il rapido progresso dei grandi modelli visione-linguaggio (VLMs) ha favorito lo sviluppo di agenti GUI basati esclusivamente sulla visione, in grado di percepire e operare interfacce grafiche (GUI) per soddisfare autonomamente le istruzioni dell'utente. Tuttavia, gli approcci esistenti adottano solitamente un framework di apprendimento offline, che presenta due limitazioni principali: (1) una forte dipendenza da annotazioni manuali di alta qualità per il grounding degli elementi e la supervisione delle azioni, e (2) una limitata adattabilità a ambienti dinamici e interattivi. Per affrontare queste limitazioni, proponiamo ZeroGUI, un framework scalabile di apprendimento online per automatizzare l'addestramento degli agenti GUI a costo umano zero. Nello specifico, ZeroGUI integra (i) la generazione automatica di task basata su VLM per produrre obiettivi di addestramento diversificati dallo stato attuale dell'ambiente, (ii) la stima automatica delle ricompense basata su VLM per valutare il successo dei task senza funzioni di valutazione manuali, e (iii) un apprendimento per rinforzo online a due stadi per interagire continuamente con gli ambienti GUI e apprendere da essi. Esperimenti condotti su due avanzati agenti GUI (UI-TARS e Aguvis) dimostrano che ZeroGUI migliora significativamente le prestazioni negli ambienti OSWorld e AndroidLab. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/ZeroGUI.

English

The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-vision-based GUI Agents, capable of perceiving and operating Graphical User Interfaces (GUI) to autonomously fulfill user instructions. However, existing approaches usually adopt an offline learning framework, which faces two core limitations: (1) heavy reliance on high-quality manual annotations for element grounding and action supervision, and (2) limited adaptability to dynamic and interactive environments. To address these limitations, we propose ZeroGUI, a scalable, online learning framework for automating GUI Agent training at Zero human cost. Specifically, ZeroGUI integrates (i) VLM-based automatic task generation to produce diverse training goals from the current environment state, (ii) VLM-based automatic reward estimation to assess task success without hand-crafted evaluation functions, and (iii) two-stage online reinforcement learning to continuously interact with and learn from GUI environments. Experiments on two advanced GUI Agents (UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance across OSWorld and AndroidLab environments. The code is available at https://github.com/OpenGVLab/ZeroGUI.

ZeroGUI: Automazione dell'Apprendimento di GUI Online a Costo Umano Zero

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Abstract

Support