ChatPaper.aiChatPaper

UI-R1 : Amélioration de la prédiction d'actions des agents d'interface graphique par apprentissage par renforcement

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

March 27, 2025
Auteurs: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI

Résumé

Le récent modèle DeepSeek-R1 a démontré l'émergence de capacités de raisonnement dans les grands modèles de langage (LLMs) grâce à l'apprentissage par renforcement (RL) avec des récompenses basées sur des règles. En nous appuyant sur cette idée, nous sommes les premiers à explorer comment le RL basé sur des règles peut améliorer les capacités de raisonnement des grands modèles de langage multimodaux (MLLMs) pour les tâches de prédiction d'actions sur les interfaces graphiques utilisateur (GUI). À cette fin, nous avons constitué un petit ensemble de données de haute qualité comprenant 136 tâches complexes, couvrant cinq types d'actions courantes sur les appareils mobiles. Nous introduisons également une récompense d'action unifiée basée sur des règles, permettant l'optimisation du modèle via des algorithmes basés sur des politiques tels que l'Optimisation Relative de Politique par Groupe (GRPO). Les résultats expérimentaux montrent que notre modèle économe en données, UI-R1-3B, réalise des améliorations substantielles sur les tâches intra-domaines (ID) et hors-domaines (OOD). Plus précisément, sur le benchmark ID AndroidControl, la précision du type d'action s'améliore de 15 %, tandis que la précision de localisation augmente de 10,3 %, par rapport au modèle de base (c'est-à-dire Qwen2.5-VL-3B). Sur le benchmark OOD de localisation GUI ScreenSpot-Pro, notre modèle dépasse le modèle de base de 6,0 % et atteint des performances compétitives avec des modèles plus grands (par exemple, OS-Atlas-7B), qui sont entraînés via un ajustement fin supervisé (SFT) sur 76K données. Ces résultats soulignent le potentiel de l'apprentissage par renforcement basé sur des règles pour faire progresser la compréhension et le contrôle des GUI, ouvrant la voie à de futures recherches dans ce domaine.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.

Summary

AI-Generated Summary

PDF619March 28, 2025