UI-ÁGIL: Avanzando en Agentes de Interfaz Gráfica con Aprendizaje por Refuerzo Efectivo y Fundamentación Precisa en Tiempo de Inferencia
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
July 29, 2025
Autores: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI
Resumen
El surgimiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) ha impulsado avances significativos en las capacidades de los agentes de Interfaz Gráfica de Usuario (GUI). Sin embargo, las técnicas existentes de entrenamiento e inferencia para agentes GUI aún enfrentan dilemas en los diseños de razonamiento, recompensas ineficaces y ruido visual. Para abordar estos problemas, presentamos UI-AGILE, un marco integral que mejora los agentes GUI tanto en las etapas de entrenamiento como de inferencia. Para el entrenamiento, proponemos una serie de mejoras al proceso de Ajuste Fino Supervisado (SFT): 1) una función de Recompensa Continua para incentivar una base de alta precisión; 2) una recompensa de "Pensamiento Simple" para equilibrar la planificación con la velocidad y la precisión de la base; y 3) una estrategia de Remuestreo basada en Recorte para mitigar el problema de recompensas dispersas y mejorar el aprendizaje en tareas complejas. Para la inferencia, presentamos Base Descompuesta con Selección, un método novedoso que mejora drásticamente la precisión de la base en pantallas de alta resolución al dividir la imagen en partes más pequeñas y manejables. Los experimentos muestran que UI-AGILE alcanza un rendimiento de vanguardia en dos puntos de referencia: ScreenSpot-Pro y ScreenSpot-v2. Por ejemplo, el uso de nuestros métodos propuestos de mejora en el entrenamiento y la inferencia proporciona una mejora del 23% en la precisión de la base sobre la mejor línea de base en ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven
significant advances in Graphical User Interface (GUI) agent capabilities.
Nevertheless, existing GUI agent training and inference techniques still suffer
from a dilemma for reasoning designs, ineffective reward, and visual noise. To
address these issues, we introduce UI-AGILE, a comprehensive framework
enhancing GUI agents at both the training and inference stages. For training,
we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process:
1) a Continuous Reward function to incentivize high-precision grounding; 2) a
"Simple Thinking" reward to balance planning with speed and grounding accuracy;
and 3) a Cropping-based Resampling strategy to mitigate the sparse reward
problem and improve learning on complex tasks. For inference, we present
Decomposed Grounding with Selection, a novel method that dramatically improves
grounding accuracy on high-resolution displays by breaking the image into
smaller, manageable parts. Experiments show that UI-AGILE achieves the
state-of-the-art performance on two benchmarks ScreenSpot-Pro and
ScreenSpot-v2. For instance, using both our proposed training and inference
enhancement methods brings 23% grounding accuracy improvement over the best
baseline on ScreenSpot-Pro.