ChatPaper.aiChatPaper

GUI 탐색 실험실: 다중 턴 강화 학습을 통한 에이전트 화면 탐색 향상

GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

December 2, 2025
저자: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI

초록

대규모 시각 언어 모델의 급속한 발전에 따라 그래픽 사용자 인터페이스(GUI) 에이전트 과제의 초점은 단일 화면 작업에서 복잡한 화면 탐색 과제로 이동하고 있습니다. 그러나 PC 소프트웨어 및 모바일 앱과 같은 실제 GUI 환경은 복잡하고 독점적인 경우가 많아 에이전트 학습 및 평가에 필요한 포괄적인 환경 정보를 획득하기 어렵습니다. 이러한 한계는 에이전트 탐색 능력에 대한 체계적인 연구와 벤치마킹을 저해합니다. 이러한 한계를 해결하기 위해 우리는 GUI 에이전트 탐색 연구를 위한 시뮬레이션 환경 엔진인 GUI Exploration Lab을 소개합니다. 이 엔진은 화면, 아이콘, 탐색 그래프를 유연하게 정의하고 구성할 수 있을 뿐만 아니라 포괄적인 에이전트 학습 및 평가를 위한 환경 정보에 대한 완전한 접근을 제공합니다. 광범위한 실험을 통해 지도 미세 조정이 기초 지식의 효과적인 암기를 가능하게 하여 후속 학습에 중요한 토대를 제공함을 확인했습니다. 이를 바탕으로 단일 단계 강화 학습은 보이지 않은 시나리오에 대한 일반화 능력을 추가로 향상시킵니다. 마지막으로 다중 단계 강화 학습은 상호작용적인 시행착오를 통해 탐색 전략의 개발을 촉진하여 화면 탐색 성능을 더욱 개선합니다. 우리는 정적 및 상호작용 벤치마크 모두에서 우리의 방법을 검증하여 연구 결과가 실제 시나리오에 효과적으로 일반화됨을 입증합니다. 이러한 연구 결과는 GUI 탐색에서 강화 학습 접근법의 이점을 보여주며, 더 능력 있고 일반화 가능한 GUI 에이전트 구축을 위한 실용적인 지침을 제공합니다.
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.
PDF11December 4, 2025