ChatPaper.aiChatPaper

UI-AGILE : Faire progresser les agents d'interface graphique grâce à un apprentissage par renforcement efficace et un ancrage précis au moment de l'inférence

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

July 29, 2025
papers.authors: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI

papers.abstract

L'émergence des modèles de langage multimodaux de grande taille (MLLMs) a entraîné des avancées significatives dans les capacités des agents d'interface graphique (GUI). Néanmoins, les techniques actuelles d'entraînement et d'inférence pour ces agents souffrent encore de dilemmes dans la conception du raisonnement, de récompenses inefficaces et de bruit visuel. Pour résoudre ces problèmes, nous introduisons UI-AGILE, un cadre complet qui améliore les agents GUI à la fois lors de l'entraînement et de l'inférence. Pour l'entraînement, nous proposons une série d'améliorations au processus de réglage fin supervisé (SFT) : 1) une fonction de récompense continue pour encourager un ancrage de haute précision ; 2) une récompense de "pensée simple" pour équilibrer la planification avec la vitesse et la précision de l'ancrage ; et 3) une stratégie de rééchantillonnage basée sur le recadrage pour atténuer le problème des récompenses éparses et améliorer l'apprentissage sur des tâches complexes. Pour l'inférence, nous présentons l'ancrage décomposé avec sélection, une méthode novatrice qui améliore considérablement la précision de l'ancrage sur les écrans haute résolution en divisant l'image en parties plus petites et gérables. Les expériences montrent que UI-AGILE atteint des performances de pointe sur deux benchmarks, ScreenSpot-Pro et ScreenSpot-v2. Par exemple, l'utilisation de nos méthodes d'amélioration proposées pour l'entraînement et l'inférence apporte une amélioration de 23 % en précision d'ancrage par rapport au meilleur modèle de référence sur ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven significant advances in Graphical User Interface (GUI) agent capabilities. Nevertheless, existing GUI agent training and inference techniques still suffer from a dilemma for reasoning designs, ineffective reward, and visual noise. To address these issues, we introduce UI-AGILE, a comprehensive framework enhancing GUI agents at both the training and inference stages. For training, we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process: 1) a Continuous Reward function to incentivize high-precision grounding; 2) a "Simple Thinking" reward to balance planning with speed and grounding accuracy; and 3) a Cropping-based Resampling strategy to mitigate the sparse reward problem and improve learning on complex tasks. For inference, we present Decomposed Grounding with Selection, a novel method that dramatically improves grounding accuracy on high-resolution displays by breaking the image into smaller, manageable parts. Experiments show that UI-AGILE achieves the state-of-the-art performance on two benchmarks ScreenSpot-Pro and ScreenSpot-v2. For instance, using both our proposed training and inference enhancement methods brings 23% grounding accuracy improvement over the best baseline on ScreenSpot-Pro.
PDF42August 11, 2025