UI-R1: Melhorando a Previsão de Ações de Agentes de Interface Gráfica por meio de Aprendizado por Reforço

Resumo

O recente DeepSeek-R1 demonstrou o surgimento de capacidades de raciocínio em LLMs por meio de aprendizado por reforço (RL) com recompensas baseadas em regras. Baseando-se nessa ideia, somos os primeiros a explorar como o RL baseado em regras pode aprimorar as capacidades de raciocínio de modelos de linguagem multimodal (MLLMs) para tarefas de previsão de ações em interfaces gráficas de usuário (GUI). Para isso, criamos um pequeno, porém de alta qualidade, conjunto de dados de 136 tarefas desafiadoras, abrangendo cinco tipos de ações comuns em dispositivos móveis. Também introduzimos uma recompensa de ação unificada baseada em regras, permitindo a otimização do modelo por meio de algoritmos baseados em políticas, como o Group Relative Policy Optimization (GRPO). Os resultados experimentais demonstram que nosso modelo proposto, eficiente em dados, UI-R1-3B, alcança melhorias substanciais tanto em tarefas dentro do domínio (ID) quanto fora do domínio (OOD). Especificamente, no benchmark ID AndroidControl, a precisão do tipo de ação melhora em 15%, enquanto a precisão de localização aumenta em 10,3%, em comparação com o modelo base (ou seja, Qwen2.5-VL-3B). No benchmark OOD de localização de GUI ScreenSpot-Pro, nosso modelo supera o modelo base em 6,0% e alcança desempenho competitivo com modelos maiores (por exemplo, OS-Atlas-7B), que são treinados por meio de ajuste fino supervisionado (SFT) em 76K dados. Esses resultados destacam o potencial do aprendizado por reforço baseado em regras para avançar a compreensão e o controle de GUIs, abrindo caminho para pesquisas futuras nesse domínio.

English

The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.

UI-R1: Melhorando a Previsão de Ações de Agentes de Interface Gráfica por meio de Aprendizado por Reforço

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Resumo

Support