ZeroGUI: Automação do Aprendizado de GUI Online com Custo Humano Zero

Resumo

O rápido avanço dos grandes Modelos Visão-Linguagem (VLMs) impulsionou o desenvolvimento de Agentes de Interface Gráfica do Usuário (GUI) baseados exclusivamente em visão, capazes de perceber e operar Interfaces Gráficas do Usuário (GUI) para cumprir autonomamente as instruções do usuário. No entanto, as abordagens existentes geralmente adotam um framework de aprendizado offline, que enfrenta duas limitações principais: (1) forte dependência de anotações manuais de alta qualidade para a localização de elementos e supervisão de ações, e (2) adaptabilidade limitada a ambientes dinâmicos e interativos. Para abordar essas limitações, propomos o ZeroGUI, um framework escalável de aprendizado online para automatizar o treinamento de Agentes de GUI com custo humano Zero. Especificamente, o ZeroGUI integra (i) geração automática de tarefas baseada em VLM para produzir objetivos de treinamento diversos a partir do estado atual do ambiente, (ii) estimativa automática de recompensa baseada em VLM para avaliar o sucesso da tarefa sem funções de avaliação manuais, e (iii) aprendizado por reforço online em duas etapas para interagir e aprender continuamente com ambientes de GUI. Experimentos em dois Agentes de GUI avançados (UI-TARS e Aguvis) demonstram que o ZeroGUI melhora significativamente o desempenho nos ambientes OSWorld e AndroidLab. O código está disponível em https://github.com/OpenGVLab/ZeroGUI.

English

The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-vision-based GUI Agents, capable of perceiving and operating Graphical User Interfaces (GUI) to autonomously fulfill user instructions. However, existing approaches usually adopt an offline learning framework, which faces two core limitations: (1) heavy reliance on high-quality manual annotations for element grounding and action supervision, and (2) limited adaptability to dynamic and interactive environments. To address these limitations, we propose ZeroGUI, a scalable, online learning framework for automating GUI Agent training at Zero human cost. Specifically, ZeroGUI integrates (i) VLM-based automatic task generation to produce diverse training goals from the current environment state, (ii) VLM-based automatic reward estimation to assess task success without hand-crafted evaluation functions, and (iii) two-stage online reinforcement learning to continuously interact with and learn from GUI environments. Experiments on two advanced GUI Agents (UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance across OSWorld and AndroidLab environments. The code is available at https://github.com/OpenGVLab/ZeroGUI.

ZeroGUI: Automação do Aprendizado de GUI Online com Custo Humano Zero

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Resumo

Support