ZeroGUI: 인간 개입 없이 온라인 GUI 학습 자동화
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
저자: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
초록
대형 시각-언어 모델(VLMs)의 급속한 발전은 그래픽 사용자 인터페이스(GUI)를 인지하고 조작하여 사용자 지시를 자율적으로 수행할 수 있는 순수 시각 기반 GUI 에이전트의 개발을 촉진해 왔습니다. 그러나 기존 접근 방식은 일반적으로 오프라인 학습 프레임워크를 채택하고 있어 두 가지 핵심 한계에 직면해 있습니다: (1) 요소 그라운딩 및 행동 감독을 위한 고품질 수동 주석에 대한 과도한 의존, 그리고 (2) 동적이고 상호작용적인 환경에 대한 제한된 적응성. 이러한 한계를 해결하기 위해, 우리는 ZeroGUI를 제안합니다. ZeroGUI는 인간의 개입 없이 GUI 에이전트 훈련을 자동화할 수 있는 확장 가능한 온라인 학습 프레임워크입니다. 구체적으로, ZeroGUI는 (i) 현재 환경 상태에서 다양한 훈련 목표를 생성하기 위한 VLM 기반 자동 작업 생성, (ii) 수작업 평가 함수 없이 작업 성공을 평가하기 위한 VLM 기반 자동 보상 추정, 그리고 (iii) GUI 환경과 지속적으로 상호작용하고 학습하기 위한 두 단계의 온라인 강화 학습을 통합합니다. 두 개의 고급 GUI 에이전트(UI-TARS 및 Aguvis)에 대한 실험은 ZeroGUI가 OSWorld 및 AndroidLab 환경에서 성능을 크게 향상시킴을 보여줍니다. 코드는 https://github.com/OpenGVLab/ZeroGUI에서 확인할 수 있습니다.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.Summary
AI-Generated Summary