UI-R1: Verbetering van actievoorspelling voor GUI-agenten door middel van reinforcement learning
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Auteurs: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Samenvatting
De recente DeepSeek-R1 heeft het ontstaan van redeneervaardigheden in LLM's (Large Language Models) getoond door middel van reinforcement learning (RL) met op regels gebaseerde beloningen. Op basis van dit idee zijn wij de eersten die onderzoeken hoe op regels gebaseerd RL de redeneervaardigheden van multimodale grote taalmodellen (MLLMs) kan verbeteren voor taken gericht op het voorspellen van acties in grafische gebruikersinterfaces (GUI's). Hiertoe hebben we een kleine maar hoogwaardige dataset samengesteld van 136 uitdagende taken, die vijf veelvoorkomende actietypen op mobiele apparaten omvatten. We introduceren ook een uniforme, op regels gebaseerde actiebeloning, waardoor modeloptimalisatie mogelijk wordt via beleidsgebaseerde algoritmen zoals Group Relative Policy Optimization (GRPO). Experimentele resultaten tonen aan dat ons voorgestelde data-efficiënte model, UI-R1-3B, aanzienlijke verbeteringen behaalt op zowel in-domein (ID) als out-of-domein (OOD) taken. Specifiek verbetert op de ID-benchmark AndroidControl de nauwkeurigheid van het actietype met 15%, terwijl de grondingsnauwkeurigheid met 10,3% toeneemt in vergelijking met het basismodel (d.w.z. Qwen2.5-VL-3B). Op de OOD GUI-grondingsbenchmark ScreenSpot-Pro overtreft ons model het basismodel met 6,0% en behaalt het competitieve prestaties met grotere modellen (bijv. OS-Atlas-7B), die zijn getraind via supervised fine-tuning (SFT) op 76K data. Deze resultaten onderstrepen het potentieel van op regels gebaseerd reinforcement learning om GUI-begrip en -controle te bevorderen, wat de weg vrijmaakt voor toekomstig onderzoek op dit gebied.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary