ZeroGUI: Automatización del Aprendizaje de GUI en Línea con Costo Humano Cero
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Autores: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Resumen
El rápido avance de los grandes Modelos de Visión-Lenguaje (VLMs) ha impulsado el desarrollo de Agentes GUI basados únicamente en visión, capaces de percibir y operar Interfaces Gráficas de Usuario (GUI) para cumplir instrucciones de los usuarios de manera autónoma. Sin embargo, los enfoques existentes suelen adoptar un marco de aprendizaje fuera de línea, que enfrenta dos limitaciones principales: (1) una fuerte dependencia de anotaciones manuales de alta calidad para la localización de elementos y la supervisión de acciones, y (2) una adaptabilidad limitada a entornos dinámicos e interactivos. Para abordar estas limitaciones, proponemos ZeroGUI, un marco de aprendizaje en línea escalable para automatizar el entrenamiento de Agentes GUI con un costo humano Cero. Específicamente, ZeroGUI integra (i) la generación automática de tareas basada en VLM para producir objetivos de entrenamiento diversos a partir del estado actual del entorno, (ii) la estimación automática de recompensas basada en VLM para evaluar el éxito de la tarea sin funciones de evaluación manualmente diseñadas, y (iii) un aprendizaje por refuerzo en línea de dos etapas para interactuar y aprender continuamente de los entornos GUI. Los experimentos en dos Agentes GUI avanzados (UI-TARS y Aguvis) demuestran que ZeroGUI mejora significativamente el rendimiento en los entornos OSWorld y AndroidLab. El código está disponible en https://github.com/OpenGVLab/ZeroGUI.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.Summary
AI-Generated Summary