UI-AGILE: Avanzare gli Agenti GUI con Apprendimento per Rinforzo Efficace e Grounding Precise al Momento dell'Inferenza
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
July 29, 2025
Autori: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI
Abstract
L'emergenza dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha guidato significativi progressi nelle capacità degli agenti per Interfacce Grafiche Utente (GUI). Tuttavia, le tecniche esistenti di addestramento e inferenza per gli agenti GUI continuano a soffrire di un dilemma nella progettazione del ragionamento, ricompense inefficaci e rumore visivo. Per affrontare questi problemi, introduciamo UI-AGILE, un framework completo che migliora gli agenti GUI sia nella fase di addestramento che in quella di inferenza. Per l'addestramento, proponiamo una serie di miglioramenti al processo di Fine-Tuning Supervisionato (SFT): 1) una funzione di Ricompensa Continua per incentivare un grounding ad alta precisione; 2) una ricompensa "Pensiero Semplice" per bilanciare la pianificazione con velocità e accuratezza del grounding; e 3) una strategia di Ricampionamento basata su Ritaglio per mitigare il problema delle ricompense sparse e migliorare l'apprendimento su compiti complessi. Per l'inferenza, presentiamo il Grounding Decomposto con Selezione, un metodo innovativo che migliora drasticamente l'accuratezza del grounding su display ad alta risoluzione suddividendo l'immagine in parti più piccole e gestibili. Gli esperimenti dimostrano che UI-AGILE raggiunge prestazioni all'avanguardia su due benchmark, ScreenSpot-Pro e ScreenSpot-v2. Ad esempio, utilizzando sia i nostri metodi di miglioramento dell'addestramento che dell'inferenza, si ottiene un miglioramento del 23% nell'accuratezza del grounding rispetto al miglior baseline su ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven
significant advances in Graphical User Interface (GUI) agent capabilities.
Nevertheless, existing GUI agent training and inference techniques still suffer
from a dilemma for reasoning designs, ineffective reward, and visual noise. To
address these issues, we introduce UI-AGILE, a comprehensive framework
enhancing GUI agents at both the training and inference stages. For training,
we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process:
1) a Continuous Reward function to incentivize high-precision grounding; 2) a
"Simple Thinking" reward to balance planning with speed and grounding accuracy;
and 3) a Cropping-based Resampling strategy to mitigate the sparse reward
problem and improve learning on complex tasks. For inference, we present
Decomposed Grounding with Selection, a novel method that dramatically improves
grounding accuracy on high-resolution displays by breaking the image into
smaller, manageable parts. Experiments show that UI-AGILE achieves the
state-of-the-art performance on two benchmarks ScreenSpot-Pro and
ScreenSpot-v2. For instance, using both our proposed training and inference
enhancement methods brings 23% grounding accuracy improvement over the best
baseline on ScreenSpot-Pro.