ChatPaper.aiChatPaper

UI-AGILE: Vooruitgang in GUI-agents met Effectief Reinforcement Learning en Nauwkeurige Inferentie-Tijd Grounding

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

July 29, 2025
Auteurs: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI

Samenvatting

De opkomst van Multimodale Grote Taalmodellen (MLLMs) heeft aanzienlijke vooruitgang geboekt in de mogelijkheden van Grafische Gebruikersinterface (GUI)-agenten. Desalniettemin kampen bestaande technieken voor training en inferentie van GUI-agenten nog steeds met een dilemma op het gebied van redeneringsontwerpen, ineffectieve beloningen en visuele ruis. Om deze problemen aan te pakken, introduceren we UI-AGILE, een uitgebreid framework dat GUI-agenten verbetert tijdens zowel de trainings- als de inferentiefase. Voor de training stellen we een reeks verbeteringen voor aan het Supervised Fine-Tuning (SFT)-proces: 1) een Continue Beloningsfunctie om hoge precisie bij het grondvesten te stimuleren; 2) een "Eenvoudig Denken"-beloning om planning te balanceren met snelheid en nauwkeurigheid bij het grondvesten; en 3) een Cropping-gebaseerde Herbemonsteringsstrategie om het probleem van schaarse beloningen te verminderen en het leren bij complexe taken te verbeteren. Voor inferentie presenteren we Gedetailleerd Grondvesten met Selectie, een nieuwe methode die de nauwkeurigheid bij het grondvesten op hoogresolutie-displays aanzienlijk verbetert door de afbeelding op te delen in kleinere, beheersbare delen. Experimenten tonen aan dat UI-AGILE de state-of-the-art prestaties behaalt op twee benchmarks, ScreenSpot-Pro en ScreenSpot-v2. Zo leidt het gebruik van zowel onze voorgestelde trainings- als inferentieverbeteringsmethoden tot een verbetering van 23% in de nauwkeurigheid bij het grondvesten ten opzichte van de beste baseline op ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven significant advances in Graphical User Interface (GUI) agent capabilities. Nevertheless, existing GUI agent training and inference techniques still suffer from a dilemma for reasoning designs, ineffective reward, and visual noise. To address these issues, we introduce UI-AGILE, a comprehensive framework enhancing GUI agents at both the training and inference stages. For training, we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process: 1) a Continuous Reward function to incentivize high-precision grounding; 2) a "Simple Thinking" reward to balance planning with speed and grounding accuracy; and 3) a Cropping-based Resampling strategy to mitigate the sparse reward problem and improve learning on complex tasks. For inference, we present Decomposed Grounding with Selection, a novel method that dramatically improves grounding accuracy on high-resolution displays by breaking the image into smaller, manageable parts. Experiments show that UI-AGILE achieves the state-of-the-art performance on two benchmarks ScreenSpot-Pro and ScreenSpot-v2. For instance, using both our proposed training and inference enhancement methods brings 23% grounding accuracy improvement over the best baseline on ScreenSpot-Pro.
PDF42August 11, 2025