GUI Verkenning Lab: Verbetering van Schermnavigatie in Agents via Multi-Turn Reinforcement Learning
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
December 2, 2025
Auteurs: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI
Samenvatting
Met de snelle ontwikkeling van grootschalige visueel-taalkundige modellen verschuift de focus van grafische gebruikersinterface (GUI)-agenttaken van enkelvoudige schermtaken naar complexe schermnavigatie-uitdagingen. Echter, real-world GUI-omgevingen, zoals PC-software en mobiele apps, zijn vaak complex en propriëtair, waardoor het moeilijk is om de uitgebreide omgevingsinformatie te verkrijgen die nodig is voor agenttraining en -evaluatie. Deze beperking hindert een systematisch onderzoek en benchmarken van navigatiecapaciteiten van agents. Om deze beperking aan te pakken, introduceren wij GUI Exploration Lab, een simulatie-omgevingmotor voor GUI-agentnavigatieonderzoek die flexibele definitie en samenstelling van schermen, iconen en navigatiegrafen mogelijk maakt, terwijl volledige toegang tot omgevingsinformatie wordt geboden voor uitgebreide agenttraining en -evaluatie. Door middel van uitgebreide experimenten ontdekken wij dat supervised fine-tuning effectieve memorisatie van fundamentele kennis mogelijk maakt, wat dient als cruciale basis voor vervolgtraining. Hierop voortbordurend verbetert single-turn reinforcement learning de generalisatie naar onbekende scenario's verder. Ten slotte stimuleert multi-turn reinforcement learning de ontwikkeling van exploratiestrategieën door interactieve trial-and-error, wat leidt tot verdere verbeteringen in schermnavigatieprestaties. Wij valideren onze methoden op zowel statische als interactieve benchmarks, waarbij wordt aangetoond dat onze bevindingen effectief generaliseren naar real-world scenario's. Deze bevindingen demonstreren de voordelen van reinforcement learning-benaderingen bij GUI-navigatie en bieden praktische richtlijnen voor het bouwen van capabelere en beter generaliseerbare GUI-agents.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.