UI-R1: 강화 학습을 통한 GUI 에이전트의 액션 예측 성능 향상
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
저자: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
초록
최근 DeepSeek-R1은 규칙 기반 보상과 강화 학습(RL)을 통해 대규모 언어 모델(LLM)의 추론 능력이 등장하는 것을 보여주었습니다. 이러한 아이디어를 바탕으로, 우리는 규칙 기반 RL이 그래픽 사용자 인터페이스(GUI) 동작 예측 작업을 위한 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 어떻게 향상시킬 수 있는지 처음으로 탐구합니다. 이를 위해, 우리는 모바일 디바이스에서의 다섯 가지 일반적인 동작 유형을 포함한 136개의 도전적인 작업으로 구성된 작지만 고품질의 데이터셋을 정제했습니다. 또한, 우리는 Group Relative Policy Optimization(GRPO)과 같은 정책 기반 알고리즘을 통해 모델 최적화를 가능하게 하는 통합된 규칙 기반 동작 보상을 도입했습니다. 실험 결과는 우리가 제안한 데이터 효율적인 모델인 UI-R1-3B가 도메인 내(ID) 및 도메인 외(OOD) 작업 모두에서 상당한 개선을 달성함을 보여줍니다. 구체적으로, ID 벤치마크인 AndroidControl에서 동작 유형 정확도는 기본 모델(즉, Qwen2.5-VL-3B) 대비 15% 향상되었고, 그라운딩 정확도는 10.3% 증가했습니다. OOD GUI 그라운딩 벤치마크인 ScreenSpot-Pro에서 우리의 모델은 기본 모델을 6.0% 앞섰으며, 76K 데이터에 대한 지도 미세 조정(SFT)으로 훈련된 더 큰 모델(예: OS-Atlas-7B)과 경쟁력 있는 성능을 달성했습니다. 이러한 결과는 규칙 기반 강화 학습이 GUI 이해와 제어를 발전시킬 수 있는 잠재력을 강조하며, 이 분야의 미래 연구를 위한 길을 열어줍니다.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary