ZeroGUI: 人的コストゼロでのオンラインGUI学習の自動化
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
著者: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
要旨
大規模な視覚言語モデル(VLM)の急速な進展により、グラフィカルユーザーインターフェース(GUI)を認識し操作することでユーザーの指示を自律的に遂行する純粋な視覚ベースのGUIエージェントの開発が加速しています。しかし、既存のアプローチは通常オフライン学習フレームワークを採用しており、2つの核心的な制限に直面しています:(1) 要素のグラウンディングとアクションの監督のための高品質な手動アノテーションへの過度な依存、(2) 動的でインタラクティブな環境への適応性の限界。これらの制限に対処するため、我々はZeroGUIを提案します。これは、人間のコストをゼロに抑えつつGUIエージェントのトレーニングを自動化するスケーラブルなオンライン学習フレームワークです。具体的には、ZeroGUIは、(i) 現在の環境状態から多様なトレーニング目標を生成するVLMベースの自動タスク生成、(ii) 手作りの評価関数なしでタスクの成功を評価するVLMベースの自動報酬推定、(iii) GUI環境と継続的にインタラクションし学習する2段階のオンライン強化学習を統合しています。2つの先進的なGUIエージェント(UI-TARSとAguvis)を用いた実験により、ZeroGUIがOSWorldとAndroidLab環境でのパフォーマンスを大幅に向上させることが実証されました。コードはhttps://github.com/OpenGVLab/ZeroGUIで公開されています。
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.Summary
AI-Generated Summary