UI-AGILE: Fortschrittliche GUI-Agenten durch effektives Reinforcement Learning und präzises Grounding zur Inferenzzeit
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
July 29, 2025
papers.authors: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI
papers.abstract
Die Entstehung von Multimodalen Großen Sprachmodellen (MLLMs) hat bedeutende Fortschritte in den Fähigkeiten von Agenten für Grafische Benutzeroberflächen (GUIs) vorangetrieben. Dennoch leiden bestehende Trainings- und Inferenztechniken für GUI-Agenten weiterhin unter einem Dilemma in Bezug auf die Gestaltung von Schlussfolgerungen, ineffektive Belohnungen und visuelles Rauschen. Um diese Probleme zu adressieren, stellen wir UI-AGILE vor, ein umfassendes Framework, das GUI-Agenten sowohl im Trainings- als auch im Inferenzstadium verbessert. Für das Training schlagen wir eine Reihe von Verbesserungen für den Supervised Fine-Tuning (SFT)-Prozess vor: 1) eine kontinuierliche Belohnungsfunktion, um eine hochpräzise Verankerung zu fördern; 2) eine „Simple Thinking“-Belohnung, um die Planung mit Geschwindigkeit und Verankerungsgenauigkeit auszubalancieren; und 3) eine auf Zuschneiden basierende Resampling-Strategie, um das Problem der spärlichen Belohnung zu mildern und das Lernen bei komplexen Aufgaben zu verbessern. Für die Inferenz präsentieren wir „Decomposed Grounding with Selection“, eine neuartige Methode, die die Verankerungsgenauigkeit auf hochauflösenden Displays dramatisch verbessert, indem das Bild in kleinere, handhabbare Teile zerlegt wird. Experimente zeigen, dass UI-AGILE die state-of-the-art Leistung auf zwei Benchmarks, ScreenSpot-Pro und ScreenSpot-v2, erreicht. Beispielsweise bringt die Verwendung unserer vorgeschlagenen Trainings- und Inferenzverbesserungsmethoden eine 23%ige Verbesserung der Verankerungsgenauigkeit gegenüber dem besten Baseline-Modell auf ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven
significant advances in Graphical User Interface (GUI) agent capabilities.
Nevertheless, existing GUI agent training and inference techniques still suffer
from a dilemma for reasoning designs, ineffective reward, and visual noise. To
address these issues, we introduce UI-AGILE, a comprehensive framework
enhancing GUI agents at both the training and inference stages. For training,
we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process:
1) a Continuous Reward function to incentivize high-precision grounding; 2) a
"Simple Thinking" reward to balance planning with speed and grounding accuracy;
and 3) a Cropping-based Resampling strategy to mitigate the sparse reward
problem and improve learning on complex tasks. For inference, we present
Decomposed Grounding with Selection, a novel method that dramatically improves
grounding accuracy on high-resolution displays by breaking the image into
smaller, manageable parts. Experiments show that UI-AGILE achieves the
state-of-the-art performance on two benchmarks ScreenSpot-Pro and
ScreenSpot-v2. For instance, using both our proposed training and inference
enhancement methods brings 23% grounding accuracy improvement over the best
baseline on ScreenSpot-Pro.