GUI-Explorationslabor: Verbesserung der Bildschirmnavigation in Agenten durch mehrstufiges bestärkendes Lernen
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
December 2, 2025
papers.authors: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI
papers.abstract
Mit der rasanten Entwicklung großer visuell-sprachlicher Modelle verlagert sich der Fokus von Aufgaben grafischer Benutzeroberflächen (GUI) von Einzellbildschirm-Aufgaben hin zu komplexen Bildschirmnavigationsherausforderungen. Allerdings sind reale GUI-Umgebungen wie PC-Software und Mobile Apps oft komplex und proprietär, was die Beschaffung umfassender Umgebungsinformationen für das Training und die Evaluation von Agenten erschwert. Diese Einschränkung behindert eine systematische Erforschung und Benchmarking von Navigationsfähigkeiten der Agenten. Um diese Limitation zu adressieren, führen wir GUI Exploration Lab ein, eine Simulationsumgebung für die GUI-Agenten-Navigationsforschung, die flexible Definition und Kombination von Bildschirmen, Icons und Navigationsgraphen ermöglicht und gleichzeitig vollständigen Zugang zu Umgebungsinformationen für umfassendes Agententraining und -evaluation bietet.
Durch umfangreiche Experimente stellen wir fest, dass überwachtes Feintuning eine effektive Speicherung von Grundlagenwissen ermöglicht und als entscheidende Basis für nachfolgendes Training dient. Aufbauend darauf verbessert Reinforcement Learning mit einzelnen Interaktionen die Generalisierungsfähigkeit auf ungesehene Szenarien weiter. Schließlich fördert Reinforcement Learning mit mehreren Interaktionen die Entwicklung von Explorationsstrategien durch interaktives Ausprobieren, was zu weiteren Verbesserungen der Bildschirmnavigationsleistung führt. Wir validieren unsere Methoden anhand statischer und interaktiver Benchmarks und zeigen, dass unsere Erkenntnisse effektiv auf reale Szenarien übertragbar sind.
Diese Ergebnisse demonstrieren die Vorteile von Reinforcement-Learning-Ansätzen in der GUI-Navigation und bieten praktische Leitlinien für die Entwicklung leistungsfähigerer und besser generalisierbarer GUI-Agenten.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.