ChatPaper.aiChatPaper

GUI-G^2: Modelagem de Recompensa Gaussiana para Fundamentação de Interfaces Gráficas

GUI-G^2: Gaussian Reward Modeling for GUI Grounding

July 21, 2025
Autores: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Resumo

A fundamentação de Interface Gráfica do Usuário (GUI) mapeia instruções em linguagem natural para locais precisos da interface para interação autônoma. As abordagens atuais de aprendizado por reforço utilizam recompensas binárias que tratam os elementos como alvos de acerto ou erro, criando sinais esparsos que ignoram a natureza contínua das interações espaciais. Motivados pelo comportamento humano de cliques que naturalmente forma distribuições Gaussianas centradas nos elementos alvo, introduzimos as Recompensas Gaussianas de Fundamentação de GUI (GUI-G^2), uma estrutura de recompensa fundamentada que modela elementos de GUI como distribuições Gaussianas contínuas ao longo do plano da interface. GUI-G^2 incorpora dois mecanismos sinérgicos: recompensas pontuais Gaussianas modelam a localização precisa por meio de distribuições de decaimento exponencial centradas nos centróides dos elementos, enquanto recompensas de cobertura avaliam o alinhamento espacial medindo a sobreposição entre as distribuições Gaussianas previstas e as regiões alvo. Para lidar com escalas diversas de elementos, desenvolvemos um mecanismo de variância adaptativa que calibra as distribuições de recompensa com base nas dimensões dos elementos. Essa estrutura transforma a fundamentação de GUI de uma classificação binária esparsa para uma otimização contínua densa, onde as distribuições Gaussianas geram sinais de gradiente ricos que guiam os modelos para posições de interação ótimas. Experimentos extensivos nos benchmarks ScreenSpot, ScreenSpot-v2 e ScreenSpot-Pro demonstram que GUI-G^2 supera substancialmente o método state-of-the-art UI-TARS-72B, com a melhoria mais significativa de 24,7% no ScreenSpot-Pro. Nossa análise revela que a modelagem contínua proporciona robustez superior a variações de interface e generalização aprimorada para layouts não vistos, estabelecendo um novo paradigma para raciocínio espacial em tarefas de interação com GUI.
English
Graphical User Interface (GUI) grounding maps natural language instructions to precise interface locations for autonomous interaction. Current reinforcement learning approaches use binary rewards that treat elements as hit-or-miss targets, creating sparse signals that ignore the continuous nature of spatial interactions. Motivated by human clicking behavior that naturally forms Gaussian distributions centered on target elements, we introduce GUI Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that models GUI elements as continuous Gaussian distributions across the interface plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point rewards model precise localization through exponentially decaying distributions centered on element centroids, while coverage rewards assess spatial alignment by measuring the overlap between predicted Gaussian distributions and target regions. To handle diverse element scales, we develop an adaptive variance mechanism that calibrates reward distributions based on element dimensions. This framework transforms GUI grounding from sparse binary classification to dense continuous optimization, where Gaussian distributions generate rich gradient signals that guide models toward optimal interaction positions. Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro benchmarks demonstrate that GUI-G^2, substantially outperforms state-of-the-art method UI-TARS-72B, with the most significant improvement of 24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides superior robustness to interface variations and enhanced generalization to unseen layouts, establishing a new paradigm for spatial reasoning in GUI interaction tasks.
PDF1316July 22, 2025