GUI-G^2 : Modélisation de récompense gaussienne pour l'ancrage dans les interfaces graphiques
GUI-G^2: Gaussian Reward Modeling for GUI Grounding
July 21, 2025
papers.authors: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
L'ancrage d'interface graphique (GUI) associe des instructions en langage naturel à des emplacements précis de l'interface pour une interaction autonome. Les approches actuelles d'apprentissage par renforcement utilisent des récompenses binaires qui traitent les éléments comme des cibles à atteindre ou non, générant ainsi des signaux clairsemés qui ignorent la nature continue des interactions spatiales. Inspirés par le comportement de clic humain qui forme naturellement des distributions gaussiennes centrées sur les éléments cibles, nous introduisons les Récompenses Gaussiennes d'Ancrage GUI (GUI-G^2), un cadre de récompense structuré qui modélise les éléments GUI comme des distributions gaussiennes continues sur le plan de l'interface. GUI-G^2 intègre deux mécanismes synergiques : les récompenses ponctuelles gaussiennes modélisent la localisation précise via des distributions à décroissance exponentielle centrées sur les centroïdes des éléments, tandis que les récompenses de couverture évaluent l'alignement spatial en mesurant le chevauchement entre les distributions gaussiennes prédites et les régions cibles. Pour gérer les échelles variées des éléments, nous développons un mécanisme de variance adaptative qui ajuste les distributions de récompense en fonction des dimensions des éléments. Ce cadre transforme l'ancrage GUI d'une classification binaire clairsemée en une optimisation continue dense, où les distributions gaussiennes génèrent des signaux de gradient riches qui guident les modèles vers des positions d'interaction optimales. Des expériences approfondies sur les benchmarks ScreenSpot, ScreenSpot-v2 et ScreenSpot-Pro démontrent que GUI-G^2 surpasse significativement la méthode de pointe UI-TARS-72B, avec une amélioration la plus notable de 24,7 % sur ScreenSpot-Pro. Notre analyse révèle que la modélisation continue offre une robustesse supérieure face aux variations d'interface et une meilleure généralisation à des dispositions inédites, établissant ainsi un nouveau paradigme pour le raisonnement spatial dans les tâches d'interaction GUI.
English
Graphical User Interface (GUI) grounding maps natural language instructions
to precise interface locations for autonomous interaction. Current
reinforcement learning approaches use binary rewards that treat elements as
hit-or-miss targets, creating sparse signals that ignore the continuous nature
of spatial interactions. Motivated by human clicking behavior that naturally
forms Gaussian distributions centered on target elements, we introduce GUI
Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that
models GUI elements as continuous Gaussian distributions across the interface
plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point
rewards model precise localization through exponentially decaying distributions
centered on element centroids, while coverage rewards assess spatial alignment
by measuring the overlap between predicted Gaussian distributions and target
regions. To handle diverse element scales, we develop an adaptive variance
mechanism that calibrates reward distributions based on element dimensions.
This framework transforms GUI grounding from sparse binary classification to
dense continuous optimization, where Gaussian distributions generate rich
gradient signals that guide models toward optimal interaction positions.
Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro
benchmarks demonstrate that GUI-G^2, substantially outperforms
state-of-the-art method UI-TARS-72B, with the most significant improvement of
24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides
superior robustness to interface variations and enhanced generalization to
unseen layouts, establishing a new paradigm for spatial reasoning in GUI
interaction tasks.