ChatPaper.aiChatPaper

Laboratorio de Exploración GUI: Mejora de la Navegación en Pantalla para Agentes mediante Aprendizaje por Refuerzo Multiturno

GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

December 2, 2025
Autores: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI

Resumen

Con el rápido desarrollo de los Grandes Modelos de Lenguaje y Visión, el enfoque de las tareas de agentes para Interfaces Gráficas de Usuario (GUI) se desplaza desde tareas en pantallas únicas hacia desafíos complejos de navegación entre pantallas. Sin embargo, los entornos GUI del mundo real, como el software de PC y las aplicaciones móviles, suelen ser complejos y propietarios, lo que dificulta obtener la información ambiental integral necesaria para el entrenamiento y evaluación de agentes. Esta limitación obstaculiza la investigación sistemática y la evaluación comparativa de las capacidades de navegación de los agentes. Para abordar esta limitación, presentamos GUI Exploration Lab, un motor de entorno de simulación para la investigación de navegación de agentes GUI que permite la definición y composición flexible de pantallas, iconos y grafos de navegación, al tiempo que proporciona acceso completo a la información del entorno para un entrenamiento y evaluación integral de los agentes. A través de extensos experimentos, encontramos que el ajuste fino supervisado permite una memorización efectiva del conocimiento fundamental, sirviendo como base crucial para el entrenamiento posterior. Sobre esta base, el aprendizaje por refuerzo de un solo turno mejora aún más la generalización a escenarios no vistos. Finalmente, el aprendizaje por refuerzo de múltiples turnos fomenta el desarrollo de estrategias de exploración mediante prueba y error interactiva, lo que conduce a nuevas mejoras en el rendimiento de la navegación por pantallas. Validamos nuestros métodos en benchmarks tanto estáticos como interactivos, demostrando que nuestros hallazgos se generalizan efectivamente a escenarios del mundo real. Estos hallazgos demuestran las ventajas de los enfoques de aprendizaje por refuerzo en la navegación GUI y ofrecen una guía práctica para construir agentes GUI más capaces y generalizables.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.
PDF11December 4, 2025