UI-ÁGIL: Avançando Agentes de Interface Gráfica com Aprendizado por Reforço Eficaz e Fundamentação Preciso em Tempo de Inferência
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
July 29, 2025
Autores: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI
Resumo
O surgimento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) impulsionou avanços significativos nas capacidades dos agentes de Interface Gráfica do Usuário (GUI). No entanto, as técnicas existentes de treinamento e inferência para agentes GUI ainda enfrentam dilemas em projetos de raciocínio, recompensas ineficazes e ruído visual. Para abordar esses problemas, introduzimos o UI-AGILE, um framework abrangente que aprimora os agentes GUI tanto na fase de treinamento quanto na de inferência. Para o treinamento, propomos uma série de melhorias no processo de Ajuste Fino Supervisionado (SFT): 1) uma função de Recompensa Contínua para incentivar a precisão no grounding; 2) uma recompensa de "Pensamento Simples" para equilibrar o planejamento com velocidade e precisão no grounding; e 3) uma estratégia de Reamostragem Baseada em Recorte para mitigar o problema de recompensa esparsa e melhorar o aprendizado em tarefas complexas. Para a inferência, apresentamos o Grounding Decomposto com Seleção, um método inovador que melhora drasticamente a precisão do grounding em telas de alta resolução ao dividir a imagem em partes menores e gerenciáveis. Experimentos mostram que o UI-AGILE alcança o desempenho de ponta em dois benchmarks, ScreenSpot-Pro e ScreenSpot-v2. Por exemplo, o uso combinado de nossos métodos propostos de aprimoramento de treinamento e inferência resulta em uma melhoria de 23% na precisão do grounding em relação à melhor baseline no ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven
significant advances in Graphical User Interface (GUI) agent capabilities.
Nevertheless, existing GUI agent training and inference techniques still suffer
from a dilemma for reasoning designs, ineffective reward, and visual noise. To
address these issues, we introduce UI-AGILE, a comprehensive framework
enhancing GUI agents at both the training and inference stages. For training,
we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process:
1) a Continuous Reward function to incentivize high-precision grounding; 2) a
"Simple Thinking" reward to balance planning with speed and grounding accuracy;
and 3) a Cropping-based Resampling strategy to mitigate the sparse reward
problem and improve learning on complex tasks. For inference, we present
Decomposed Grounding with Selection, a novel method that dramatically improves
grounding accuracy on high-resolution displays by breaking the image into
smaller, manageable parts. Experiments show that UI-AGILE achieves the
state-of-the-art performance on two benchmarks ScreenSpot-Pro and
ScreenSpot-v2. For instance, using both our proposed training and inference
enhancement methods brings 23% grounding accuracy improvement over the best
baseline on ScreenSpot-Pro.