UI-R1: 強化学習によるGUIエージェントのアクション予測の強化
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
著者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
要旨
最近のDeepSeek-R1は、ルールベースの報酬を用いた強化学習(RL)を通じて、大規模言語モデル(LLM)における推論能力の出現を示しました。このアイデアを基に、我々はマルチモーダル大規模言語モデル(MLLM)の推論能力をグラフィカルユーザーインターフェース(GUI)のアクション予測タスクにおいて強化するために、ルールベースのRLを初めて探求しました。この目的のために、我々は136の挑戦的なタスクからなる小さくも高品質なデータセットをキュレーションし、モバイルデバイスにおける5つの一般的なアクションタイプを網羅しました。また、Group Relative Policy Optimization(GRPO)などのポリシーベースのアルゴリズムを通じてモデル最適化を可能にする統一されたルールベースのアクション報酬を導入しました。実験結果は、我々が提案したデータ効率の良いモデル、UI-R1-3Bが、ドメイン内(ID)およびドメイン外(OOD)のタスクにおいて大幅な改善を達成することを示しています。具体的には、IDベンチマークであるAndroidControlにおいて、アクションタイプの精度が15%向上し、グラウンディング精度が10.3%向上しました(ベースモデルであるQwen2.5-VL-3Bと比較して)。OOD GUIグラウンディングベンチマークであるScreenSpot-Proでは、我々のモデルはベースモデルを6.0%上回り、76Kのデータで教師あり微調整(SFT)を経たより大きなモデル(例:OS-Atlas-7B)と競争力のある性能を達成しました。これらの結果は、ルールベースの強化学習がGUIの理解と制御を進める可能性を強調し、この分野における将来の研究の道を開くものです。
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary