Laboratoire d'Exploration d'Interface Graphique : Amélioration de la Navigation sur Écran chez les Agents par Apprentissage par Renforcement Multi-Étapes
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
December 2, 2025
papers.authors: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI
papers.abstract
Avec le développement rapide des grands modèles de vision et de langage, l'accent des tâches des agents d'interface graphique (GUI) se déplace des opérations sur écran unique vers les défis complexes de navigation multi-écrans. Cependant, les environnements GUI réels, tels que les logiciels PC et les applications mobiles, sont souvent complexes et propriétaires, ce qui rend difficile l'obtention d'informations environnementales complètes nécessaires à l'entraînement et à l'évaluation des agents. Cette limitation entrave l'étude systématique et l'établissement de références pour les capacités de navigation des agents. Pour résoudre ce problème, nous présentons GUI Exploration Lab, un moteur d'environnement de simulation pour la recherche sur la navigation des agents GUI qui permet une définition et une composition flexibles des écrans, des icônes et des graphes de navigation, tout en fournissant un accès complet aux informations environnementales pour un entraînement et une évaluation complets des agents. À travers des expériences approfondies, nous constatons que le réglage fin supervisé permet une mémorisation efficace des connaissances fondamentales, servant de fondation cruciale pour l'entraînement ultérieur. Sur cette base, l'apprentissage par renforcement en tour unique améliore encore la généralisation à des scénarios non vus. Enfin, l'apprentissage par renforcement multi-tours encourage le développement de stratégies d'exploration par essais et erreurs interactifs, conduisant à des améliorations supplémentaires des performances de navigation à l'écran. Nous validons nos méthodes sur des références statiques et interactives, démontrant que nos résultats se généralisent efficacement aux scénarios réels. Ces résultats démontrent les avantages des approches d'apprentissage par renforcement dans la navigation GUI et offrent des conseils pratiques pour construire des agents GUI plus compétents et généralisables.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.