GUI探索ラボ: マルチターン強化学習によるエージェントの画面ナビゲーション能力の向上
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
December 2, 2025
著者: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang
cs.AI
要旨
大規模視覚言語モデルの急速な発展に伴い、グラフィカルユーザーインターフェース(GUI)エージェントタスクの焦点は、単一画面タスクから複雑な画面ナビゲーション課題へと移行しつつある。しかし、PCソフトウェアやモバイルアプリなどの実世界のGUI環境は、複雑で独自仕様であることが多く、エージェントの学習と評価に必要な包括的な環境情報の取得が困難である。この制約が、エージェントのナビゲーション能力に関する体系的な調査とベンチマーク構築を妨げている。この課題を解決するため、本研究ではGUIエージェントナビゲーション研究のためのシミュレーション環境エンジン「GUI Exploration Lab」を提案する。本エンジンは、画面、アイコン、ナビゲーショングラフを柔軟に定義・構成できると同時に、環境情報への完全なアクセスを提供し、エージェントの包括的な学習と評価を可能にする。大規模な実験を通じて、教師ありファインチューニングが基礎知識の効果的な記憶学習を実現し、後続の学習における重要な基盤となることを明らかにした。この基盤の上で、単一ターン強化学習は未経験シナリオへの一般化能力をさらに向上させる。最後に、多ターン強化学習は、インタラクティブな試行錯誤を通じて探索戦略の発達を促進し、画面ナビゲーション性能のさらなる改善をもたらす。静的およびインタラクティブなベンチマークにおいて本手法を検証し、これらの知見が実世界シナリオに効果的に一般化することを実証した。これらの発見は、GUIナビゲーションにおける強化学習アプローチの優位性を示すとともに、より高機能で一般化可能なGUIエージェント構築への実践的指針を提供する。
English
With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.