Лаборатория исследования графического интерфейса: улучшение навигации по экрану в агентах с помощью многошагового обучения с подкреплением
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
December 2, 2025
Авторы: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI
Аннотация
С быстрым развитием больших визуально-языковых моделей фокус задач агентов графического интерфейса пользователя (GUI) смещается от задач на одном экране к сложным проблемам навигации между экранами. Однако реальные GUI-среды, такие как ПО для ПК и мобильные приложения, часто являются сложными и проприетарными, что затрудняет получение полной информации о среде, необходимой для обучения и оценки агентов. Это ограничение препятствует систематическому исследованию и бенчмаркингу возможностей навигации агентов. Чтобы устранить это ограничение, мы представляем GUI Exploration Lab — механизм среды имитации для исследования навигации GUI-агентов, который позволяет гибко определять и комбинировать экраны, иконки и графы навигации, предоставляя при этом полный доступ к информации о среде для всестороннего обучения и оценки агентов. В ходе обширных экспериментов мы обнаружили, что обучение с учителем позволяет эффективно запоминать базовые знания, служа crucialным фундаментом для последующего обучения. На этой основе обучение с подкреплением в один шаг дополнительно улучшает обобщающую способность для непредвиденных сценариев. Наконец, многошаговое обучение с подкреплением стимулирует разработку стратегий исследования через интерактивные пробы и ошибки, что приводит к дальнейшему повышению производительности навигации по экранам. Мы проверяем наши методы на статических и интерактивных бенчмарках, демонстрируя, что наши выводы эффективно обобщаются на реальные сценарии. Эти результаты демонстрируют преимущества подходов обучения с подкреплением в GUI-навигации и предлагают практические рекомендации для создания более способных и обобщаемых GUI-агентов.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.