ChatPaper.aiChatPaper

GUI-G^2: Modelado de Recompensas Gaussianas para la Fundamentación de Interfaces Gráficas de Usuario

GUI-G^2: Gaussian Reward Modeling for GUI Grounding

July 21, 2025
Autores: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Resumen

La Interfaz Gráfica de Usuario (GUI) basada en fundamentos mapea instrucciones en lenguaje natural a ubicaciones precisas en la interfaz para interacciones autónomas. Los enfoques actuales de aprendizaje por refuerzo utilizan recompensas binarias que tratan los elementos como objetivos de acierto o fallo, generando señales dispersas que ignoran la naturaleza continua de las interacciones espaciales. Inspirados por el comportamiento humano al hacer clic, que naturalmente forma distribuciones gaussianas centradas en los elementos objetivo, presentamos GUI Gaussian Grounding Rewards (GUI-G^2), un marco de recompensas fundamentado que modela los elementos de la GUI como distribuciones gaussianas continuas en el plano de la interfaz. GUI-G^2 incorpora dos mecanismos sinérgicos: las recompensas de punto gaussiano modelan la localización precisa mediante distribuciones que decaen exponencialmente centradas en los centroides de los elementos, mientras que las recompensas de cobertura evalúan la alineación espacial midiendo la superposición entre las distribuciones gaussianas predichas y las regiones objetivo. Para manejar diversas escalas de elementos, desarrollamos un mecanismo de varianza adaptativa que calibra las distribuciones de recompensa según las dimensiones de los elementos. Este marco transforma la fundamentación de la GUI de una clasificación binaria dispersa a una optimización continua densa, donde las distribuciones gaussianas generan señales de gradiente ricas que guían a los modelos hacia posiciones óptimas de interacción. Experimentos extensos en los benchmarks ScreenSpot, ScreenSpot-v2 y ScreenSpot-Pro demuestran que GUI-G^2 supera sustancialmente al método de vanguardia UI-TARS-72B, con la mejora más significativa del 24.7% en ScreenSpot-Pro. Nuestro análisis revela que el modelado continuo proporciona una robustez superior a las variaciones de la interfaz y una generalización mejorada a diseños no vistos, estableciendo un nuevo paradigma para el razonamiento espacial en tareas de interacción con GUI.
English
Graphical User Interface (GUI) grounding maps natural language instructions to precise interface locations for autonomous interaction. Current reinforcement learning approaches use binary rewards that treat elements as hit-or-miss targets, creating sparse signals that ignore the continuous nature of spatial interactions. Motivated by human clicking behavior that naturally forms Gaussian distributions centered on target elements, we introduce GUI Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that models GUI elements as continuous Gaussian distributions across the interface plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point rewards model precise localization through exponentially decaying distributions centered on element centroids, while coverage rewards assess spatial alignment by measuring the overlap between predicted Gaussian distributions and target regions. To handle diverse element scales, we develop an adaptive variance mechanism that calibrates reward distributions based on element dimensions. This framework transforms GUI grounding from sparse binary classification to dense continuous optimization, where Gaussian distributions generate rich gradient signals that guide models toward optimal interaction positions. Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro benchmarks demonstrate that GUI-G^2, substantially outperforms state-of-the-art method UI-TARS-72B, with the most significant improvement of 24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides superior robustness to interface variations and enhanced generalization to unseen layouts, establishing a new paradigm for spatial reasoning in GUI interaction tasks.
PDF1185July 22, 2025