ZeroGUI: Automação do Aprendizado de GUI Online com Custo Humano Zero
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Autores: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Resumo
O rápido avanço dos grandes Modelos Visão-Linguagem (VLMs) impulsionou o desenvolvimento de Agentes de Interface Gráfica do Usuário (GUI) baseados exclusivamente em visão, capazes de perceber e operar Interfaces Gráficas do Usuário (GUI) para cumprir autonomamente as instruções do usuário. No entanto, as abordagens existentes geralmente adotam um framework de aprendizado offline, que enfrenta duas limitações principais: (1) forte dependência de anotações manuais de alta qualidade para a localização de elementos e supervisão de ações, e (2) adaptabilidade limitada a ambientes dinâmicos e interativos. Para abordar essas limitações, propomos o ZeroGUI, um framework escalável de aprendizado online para automatizar o treinamento de Agentes de GUI com custo humano Zero. Especificamente, o ZeroGUI integra (i) geração automática de tarefas baseada em VLM para produzir objetivos de treinamento diversos a partir do estado atual do ambiente, (ii) estimativa automática de recompensa baseada em VLM para avaliar o sucesso da tarefa sem funções de avaliação manuais, e (iii) aprendizado por reforço online em duas etapas para interagir e aprender continuamente com ambientes de GUI. Experimentos em dois Agentes de GUI avançados (UI-TARS e Aguvis) demonstram que o ZeroGUI melhora significativamente o desempenho nos ambientes OSWorld e AndroidLab. O código está disponível em https://github.com/OpenGVLab/ZeroGUI.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.