Laboratorio di Esplorazione GUI: Miglioramento della Navigazione su Schermo negli Agenti tramite Apprendimento per Rinforzo Multiturno
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
December 2, 2025
Autori: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI
Abstract
Con il rapido sviluppo dei Large Vision Language Models, l'attenzione nei compiti degli agenti per interfacce grafiche (GUI) si sta spostando da attività su schermate singole a sfide complesse di navigazione tra schermi. Tuttavia, gli ambienti GUI reali, come i software per PC e le app mobili, sono spesso complessi e proprietari, rendendo difficile ottenere le informazioni ambientali complete necessarie per l'addestramento e la valutazione degli agenti. Questa limitazione ostacola un'indagine sistematica e un benchmarking delle capacità di navigazione degli agenti. Per affrontare questa limitazione, introduciamo GUI Exploration Lab, un motore di ambiente simulato per la ricerca sulla navigazione degli agenti GUI che consente la definizione e la composizione flessibile di schermate, icone e grafi di navigazione, fornendo al contempo accesso completo alle informazioni ambientali per un addestramento e una valutazione approfonditi degli agenti. Attraverso esperimenti estesi, abbiamo riscontrato che il supervised fine-tuning consente una memorizzazione efficace della conoscenza di base, fungendo da fondamento cruciale per l'addestramento successivo. Basandosi su questo, il reinforcement learning a turno singolo migliora ulteriormente la generalizzazione a scenari non visti. Infine, il reinforcement learning a turni multipli favorisce lo sviluppo di strategie di esplorazione attraverso tentativi ed errori interattivi, portando a ulteriori miglioramenti nelle prestazioni di navigazione tra schermi. Convalidiamo i nostri metodi su benchmark sia statici che interattivi, dimostrando che i nostri risultati si generalizzano efficacemente a scenari reali. Questi risultati evidenziano i vantaggi degli approcci di reinforcement learning nella navigazione GUI e offrono una guida pratica per costruire agenti GUI più capaci e generalizzabili.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.