ZeroGUI: Автоматизация обучения онлайн-интерфейсов без участия человека
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
May 29, 2025
Авторы: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai
cs.AI
Аннотация
Быстрое развитие крупных визуально-языковых моделей (VLMs) стимулировало
развитие чисто визуальных GUI-агентов, способных воспринимать и взаимодействовать
с графическими пользовательскими интерфейсами (GUI) для автономного выполнения
пользовательских инструкций. Однако существующие подходы обычно используют
оффлайн-обучение, что сталкивается с двумя ключевыми ограничениями: (1) сильная
зависимость от высококачественных ручных аннотаций для локализации элементов и
контроля действий, и (2) ограниченная адаптивность к динамическим и интерактивным
средам. Для устранения этих ограничений мы предлагаем ZeroGUI, масштабируемую
онлайн-платформу для автоматизации обучения GUI-агентов с нулевыми затратами на
человеческие ресурсы. В частности, ZeroGUI интегрирует (i) автоматическую
генерацию задач на основе VLM для создания разнообразных учебных целей из
текущего состояния среды, (ii) автоматическую оценку вознаграждений на основе VLM
для оценки успешности задач без использования ручных функций оценки, и (iii)
двухэтапное онлайн-обучение с подкреплением для непрерывного взаимодействия с
GUI-средами и обучения на их основе. Эксперименты на двух продвинутых GUI-агентах
(UI-TARS и Aguvis) демонстрируют, что ZeroGUI значительно повышает
производительность в средах OSWorld и AndroidLab. Код доступен по адресу
https://github.com/OpenGVLab/ZeroGUI.
English
The rapid advancement of large Vision-Language Models (VLMs) has propelled
the development of pure-vision-based GUI Agents, capable of perceiving and
operating Graphical User Interfaces (GUI) to autonomously fulfill user
instructions. However, existing approaches usually adopt an offline learning
framework, which faces two core limitations: (1) heavy reliance on high-quality
manual annotations for element grounding and action supervision, and (2)
limited adaptability to dynamic and interactive environments. To address these
limitations, we propose ZeroGUI, a scalable, online learning framework for
automating GUI Agent training at Zero human cost. Specifically, ZeroGUI
integrates (i) VLM-based automatic task generation to produce diverse training
goals from the current environment state, (ii) VLM-based automatic reward
estimation to assess task success without hand-crafted evaluation functions,
and (iii) two-stage online reinforcement learning to continuously interact with
and learn from GUI environments. Experiments on two advanced GUI Agents
(UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance
across OSWorld and AndroidLab environments. The code is available at
https://github.com/OpenGVLab/ZeroGUI.Summary
AI-Generated Summary