UI-R1 : Amélioration de la prédiction d'actions des agents d'interface graphique par apprentissage par renforcement
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Auteurs: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Résumé
Le récent modèle DeepSeek-R1 a démontré l'émergence de capacités de raisonnement dans les grands modèles de langage (LLMs) grâce à l'apprentissage par renforcement (RL) avec des récompenses basées sur des règles. En nous appuyant sur cette idée, nous sommes les premiers à explorer comment le RL basé sur des règles peut améliorer les capacités de raisonnement des grands modèles de langage multimodaux (MLLMs) pour les tâches de prédiction d'actions sur les interfaces graphiques utilisateur (GUI). À cette fin, nous avons constitué un petit ensemble de données de haute qualité comprenant 136 tâches complexes, couvrant cinq types d'actions courantes sur les appareils mobiles. Nous introduisons également une récompense d'action unifiée basée sur des règles, permettant l'optimisation du modèle via des algorithmes basés sur des politiques tels que l'Optimisation Relative de Politique par Groupe (GRPO). Les résultats expérimentaux montrent que notre modèle économe en données, UI-R1-3B, réalise des améliorations substantielles sur les tâches intra-domaines (ID) et hors-domaines (OOD). Plus précisément, sur le benchmark ID AndroidControl, la précision du type d'action s'améliore de 15 %, tandis que la précision de localisation augmente de 10,3 %, par rapport au modèle de base (c'est-à-dire Qwen2.5-VL-3B). Sur le benchmark OOD de localisation GUI ScreenSpot-Pro, notre modèle dépasse le modèle de base de 6,0 % et atteint des performances compétitives avec des modèles plus grands (par exemple, OS-Atlas-7B), qui sont entraînés via un ajustement fin supervisé (SFT) sur 76K données. Ces résultats soulignent le potentiel de l'apprentissage par renforcement basé sur des règles pour faire progresser la compréhension et le contrôle des GUI, ouvrant la voie à de futures recherches dans ce domaine.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary