ChatPaper.aiChatPaper

UI-R1: Verbetering van actievoorspelling voor GUI-agenten door middel van reinforcement learning

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

March 27, 2025
Auteurs: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI

Samenvatting

De recente DeepSeek-R1 heeft het ontstaan van redeneervaardigheden in LLM's (Large Language Models) getoond door middel van reinforcement learning (RL) met op regels gebaseerde beloningen. Op basis van dit idee zijn wij de eersten die onderzoeken hoe op regels gebaseerd RL de redeneervaardigheden van multimodale grote taalmodellen (MLLMs) kan verbeteren voor taken gericht op het voorspellen van acties in grafische gebruikersinterfaces (GUI's). Hiertoe hebben we een kleine maar hoogwaardige dataset samengesteld van 136 uitdagende taken, die vijf veelvoorkomende actietypen op mobiele apparaten omvatten. We introduceren ook een uniforme, op regels gebaseerde actiebeloning, waardoor modeloptimalisatie mogelijk wordt via beleidsgebaseerde algoritmen zoals Group Relative Policy Optimization (GRPO). Experimentele resultaten tonen aan dat ons voorgestelde data-efficiënte model, UI-R1-3B, aanzienlijke verbeteringen behaalt op zowel in-domein (ID) als out-of-domein (OOD) taken. Specifiek verbetert op de ID-benchmark AndroidControl de nauwkeurigheid van het actietype met 15%, terwijl de grondingsnauwkeurigheid met 10,3% toeneemt in vergelijking met het basismodel (d.w.z. Qwen2.5-VL-3B). Op de OOD GUI-grondingsbenchmark ScreenSpot-Pro overtreft ons model het basismodel met 6,0% en behaalt het competitieve prestaties met grotere modellen (bijv. OS-Atlas-7B), die zijn getraind via supervised fine-tuning (SFT) op 76K data. Deze resultaten onderstrepen het potentieel van op regels gebaseerd reinforcement learning om GUI-begrip en -controle te bevorderen, wat de weg vrijmaakt voor toekomstig onderzoek op dit gebied.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.

Summary

AI-Generated Summary

PDF619March 28, 2025