UI-R1: Melhorando a Previsão de Ações de Agentes de Interface Gráfica por meio de Aprendizado por Reforço
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Autores: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Resumo
O recente DeepSeek-R1 demonstrou o surgimento de capacidades de raciocínio em LLMs por meio de aprendizado por reforço (RL) com recompensas baseadas em regras. Baseando-se nessa ideia, somos os primeiros a explorar como o RL baseado em regras pode aprimorar as capacidades de raciocínio de modelos de linguagem multimodal (MLLMs) para tarefas de previsão de ações em interfaces gráficas de usuário (GUI). Para isso, criamos um pequeno, porém de alta qualidade, conjunto de dados de 136 tarefas desafiadoras, abrangendo cinco tipos de ações comuns em dispositivos móveis. Também introduzimos uma recompensa de ação unificada baseada em regras, permitindo a otimização do modelo por meio de algoritmos baseados em políticas, como o Group Relative Policy Optimization (GRPO). Os resultados experimentais demonstram que nosso modelo proposto, eficiente em dados, UI-R1-3B, alcança melhorias substanciais tanto em tarefas dentro do domínio (ID) quanto fora do domínio (OOD). Especificamente, no benchmark ID AndroidControl, a precisão do tipo de ação melhora em 15%, enquanto a precisão de localização aumenta em 10,3%, em comparação com o modelo base (ou seja, Qwen2.5-VL-3B). No benchmark OOD de localização de GUI ScreenSpot-Pro, nosso modelo supera o modelo base em 6,0% e alcança desempenho competitivo com modelos maiores (por exemplo, OS-Atlas-7B), que são treinados por meio de ajuste fino supervisionado (SFT) em 76K dados. Esses resultados destacam o potencial do aprendizado por reforço baseado em regras para avançar a compreensão e o controle de GUIs, abrindo caminho para pesquisas futuras nesse domínio.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary