UI-S1: 半オンライン強化学習によるGUI自動化の進展
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
September 15, 2025
著者: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI
要旨
グラフィカルユーザーインターフェース(GUI)エージェントは、強化学習を用いて複雑なユーザーインターフェース操作を自動化する点で顕著な進歩を遂げてきました。しかし、現在のアプローチには根本的なジレンマが存在します。オフライン強化学習は事前に収集した軌跡データを用いて安定した訓練を可能にしますが、軌跡レベルの報酬信号が不足しているため、多段階タスクの実行に苦戦します。一方、オンライン強化学習は環境との相互作用を通じてこれらの信号を捉えますが、報酬が疎であり、展開コストが非常に高くなります。この問題を解決するため、我々はオフライン軌跡上でオンライン強化学習をシミュレートする新たなパラダイムである「Semi-online Reinforcement Learning」を提案します。各ロールアウトプロセスにおいて、多ターン対話内で元のモデル出力を保持し、Patch Moduleがロールアウトとエキスパート軌跡の乖離を適応的に回復します。長期的な訓練信号を捉えるために、Semi-online RLは割引未来報酬を報酬計算に導入し、重み付けされたステップレベルおよびエピソードレベルのアドバンテージを用いてポリシーを最適化します。さらに、真のオンラインパフォーマンスに適した評価指標として「Semi-Online Performance(SOP)」を導入し、実世界での評価の実用的かつ効果的な代理指標とします。実験結果は、我々のSemi-online RLが7Bモデルにおいて4つの動的ベンチマークでSOTA性能を達成し、ベースモデルに対して大幅な向上(例:AndroidWorldで+12.0%、AITWで+23.8%)を示し、オフライン訓練の効率性とオンライン多段階推論のギャップを埋める点で大きな進展を実証しています。コードはhttps://github.com/X-PLUG/MobileAgent/tree/main/UI-S1で公開されています。
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress
in automating complex user interface interactions through reinforcement
learning. However, current approaches face a fundamental dilemma: offline RL
enables stable training on pre-collected trajectories, but struggles with
multi-step task execution for lack of trajectory-level reward signals; online
RL captures these signals through environment interaction, but suffers from
sparse rewards and prohibitive deployment costs. To address it, we present
Semi-online Reinforcement Learning, a novel paradigm that simulates online RL
on offline trajectories. During each rollout process, we preserve the original
model output within the multi-turn dialogue, where a Patch Module adaptively
recovers the divergence between rollout and expert trajectories. To capture
long-term training signals, Semi-online RL introduces discounted future returns
into the reward computation and optimizes the policy with weighted step-level
and episode-level advantages. We further introduce Semi-Online Performance
(SOP), a metric that aligns better with true online performance, serving as a
practical and effective proxy for real-world evaluation. Experiments show that
ours Semi-online RL achieves SOTA performance among 7B models across four
dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on
AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging
the gap between offline training efficiency and online multi-turn reasoning.
The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.