UI-R1: Улучшение прогнозирования действий агентов графического интерфейса с помощью обучения с подкреплением
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Авторы: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Аннотация
Недавняя модель DeepSeek-R1 продемонстрировала появление способностей к рассуждению в крупных языковых моделях (LLM) благодаря обучению с подкреплением (RL) с использованием правил для начисления наград. Развивая эту идею, мы впервые исследуем, как RL на основе правил может улучшить способности к рассуждению мультимодальных крупных языковых моделей (MLLM) для задач прогнозирования действий в графических пользовательских интерфейсах (GUI). Для этого мы создали небольшой, но высококачественный набор данных, включающий 136 сложных задач, охватывающих пять типов распространенных действий на мобильных устройствах. Мы также вводим унифицированную систему наград для действий на основе правил, что позволяет оптимизировать модель с помощью алгоритмов, основанных на политиках, таких как Group Relative Policy Optimization (GRPO). Результаты экспериментов показывают, что наша предложенная модель, эффективная по данным UI-R1-3B, достигает значительных улучшений как на задачах внутри домена (ID), так и за его пределами (OOD). В частности, на тестовом наборе AndroidControl (ID) точность определения типа действий увеличивается на 15%, а точность локализации — на 10,3% по сравнению с базовой моделью (Qwen2.5-VL-3B). На тестовом наборе ScreenSpot-Pro (OOD) наша модель превосходит базовую на 6,0% и демонстрирует конкурентоспособные результаты с более крупными моделями (например, OS-Atlas-7B), которые обучались с помощью контролируемой тонкой настройки (SFT) на 76 тыс. данных. Эти результаты подчеркивают потенциал обучения с подкреплением на основе правил для улучшения понимания и управления GUI, открывая новые направления для будущих исследований в этой области.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary