UI-R1: Mejora de la Predicción de Acciones en Agentes de Interfaz Gráfica mediante Aprendizaje por Refuerzo
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Autores: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Resumen
El reciente DeepSeek-R1 ha demostrado la aparición de capacidades de razonamiento en los modelos de lenguaje grandes (LLMs) mediante el aprendizaje por refuerzo (RL) con recompensas basadas en reglas. Basándonos en esta idea, somos los primeros en explorar cómo el RL basado en reglas puede mejorar las capacidades de razonamiento de los modelos de lenguaje grandes multimodales (MLLMs) para tareas de predicción de acciones en interfaces gráficas de usuario (GUI). Para ello, hemos creado un conjunto de datos pequeño pero de alta calidad que incluye 136 tareas desafiantes, abarcando cinco tipos de acciones comunes en dispositivos móviles. También introducimos una recompensa de acción unificada basada en reglas, permitiendo la optimización del modelo mediante algoritmos basados en políticas como Group Relative Policy Optimization (GRPO). Los resultados experimentales demuestran que nuestro modelo propuesto, eficiente en datos, UI-R1-3B, logra mejoras sustanciales tanto en tareas dentro del dominio (ID) como fuera del dominio (OOD). Específicamente, en el benchmark ID AndroidControl, la precisión del tipo de acción mejora en un 15%, mientras que la precisión de localización aumenta en un 10.3%, en comparación con el modelo base (es decir, Qwen2.5-VL-3B). En el benchmark OOD de localización en GUI ScreenSpot-Pro, nuestro modelo supera al modelo base en un 6.0% y alcanza un rendimiento competitivo con modelos más grandes (por ejemplo, OS-Atlas-7B), los cuales están entrenados mediante ajuste fino supervisado (SFT) en 76K datos. Estos resultados subrayan el potencial del aprendizaje por refuerzo basado en reglas para avanzar en la comprensión y control de GUI, allanando el camino para futuras investigaciones en este dominio.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary