ZeroGUI : Automatisation de l'apprentissage d'interfaces graphiques en ligne sans aucun coût humain
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Auteurs: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Résumé
L'avancée rapide des grands modèles vision-langage (VLMs) a propulsé le développement d'agents d'interface graphique (GUI) basés uniquement sur la vision, capables de percevoir et d'opérer des interfaces utilisateur graphiques (GUI) pour accomplir de manière autonome les instructions des utilisateurs. Cependant, les approches existantes adoptent généralement un cadre d'apprentissage hors ligne, qui présente deux limitations principales : (1) une forte dépendance à des annotations manuelles de haute qualité pour l'ancrage des éléments et la supervision des actions, et (2) une adaptabilité limitée aux environnements dynamiques et interactifs. Pour résoudre ces limitations, nous proposons ZeroGUI, un cadre d'apprentissage en ligne et scalable pour automatiser l'entraînement des agents GUI sans aucun coût humain. Plus précisément, ZeroGUI intègre (i) une génération automatique de tâches basée sur les VLMs pour produire des objectifs d'entraînement variés à partir de l'état actuel de l'environnement, (ii) une estimation automatique des récompenses basée sur les VLMs pour évaluer la réussite des tâches sans fonctions d'évaluation manuelles, et (iii) un apprentissage par renforcement en ligne en deux étapes pour interagir continuellement avec les environnements GUI et en apprendre. Les expériences sur deux agents GUI avancés (UI-TARS et Aguvis) démontrent que ZeroGUI améliore significativement les performances dans les environnements OSWorld et AndroidLab. Le code est disponible à l'adresse https://github.com/OpenGVLab/ZeroGUI.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.Summary
AI-Generated Summary