GUI-G^2: Gaußsche Belohnungsmodellierung für GUI-Verankerung
GUI-G^2: Gaussian Reward Modeling for GUI Grounding
July 21, 2025
papers.authors: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
Die Verankerung von grafischen Benutzeroberflächen (GUI) in natürlicher Sprache bildet natürliche Sprachbefehle auf präzise Schnittstellenpositionen für autonome Interaktionen ab. Aktuelle Ansätze des Reinforcement Learning verwenden binäre Belohnungen, die Elemente als Treffer-oder-Fehler-Ziele behandeln, wodurch spärliche Signale entstehen, die den kontinuierlichen Charakter räumlicher Interaktionen ignorieren. Inspiriert vom menschlichen Klickverhalten, das natürlicherweise Gaußsche Verteilungen um Ziellemente herum bildet, führen wir GUI-Gaußsche Verankerungsbelohnungen (GUI-G^2) ein, ein prinzipielles Belohnungsframework, das GUI-Elemente als kontinuierliche Gaußsche Verteilungen über die Schnittstellenebene modelliert. GUI-G^2 integriert zwei synergetische Mechanismen: Gaußsche Punktbelohnungen modellieren präzise Lokalisierung durch exponentiell abfallende Verteilungen, die auf den Schwerpunkten der Elemente zentriert sind, während Abdeckungsbelohnungen die räumliche Ausrichtung bewerten, indem sie die Überlappung zwischen vorhergesagten Gaußschen Verteilungen und Zielregionen messen. Um unterschiedliche Elementgrößen zu handhaben, entwickeln wir einen adaptiven Varianzmechanismus, der die Belohnungsverteilungen basierend auf den Elementdimensionen kalibriert. Dieses Framework transformiert die GUI-Verankerung von einer spärlichen binären Klassifikation zu einer dichten kontinuierlichen Optimierung, bei der Gaußsche Verteilungen reichhaltige Gradientensignale erzeugen, die Modelle zu optimalen Interaktionspositionen führen. Umfangreiche Experimente über die Benchmarks ScreenSpot, ScreenSpot-v2 und ScreenSpot-Pro zeigen, dass GUI-G^2 den state-of-the-art Ansatz UI-TARS-72B deutlich übertrifft, mit der signifikantesten Verbesserung von 24,7 % auf ScreenSpot-Pro. Unsere Analyse zeigt, dass die kontinuierliche Modellierung eine überlegene Robustheit gegenüber Schnittstellenvariationen und eine verbesserte Generalisierung auf unbekannte Layouts bietet, wodurch ein neues Paradigma für räumliches Denken in GUI-Interaktionsaufgaben etabliert wird.
English
Graphical User Interface (GUI) grounding maps natural language instructions
to precise interface locations for autonomous interaction. Current
reinforcement learning approaches use binary rewards that treat elements as
hit-or-miss targets, creating sparse signals that ignore the continuous nature
of spatial interactions. Motivated by human clicking behavior that naturally
forms Gaussian distributions centered on target elements, we introduce GUI
Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that
models GUI elements as continuous Gaussian distributions across the interface
plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point
rewards model precise localization through exponentially decaying distributions
centered on element centroids, while coverage rewards assess spatial alignment
by measuring the overlap between predicted Gaussian distributions and target
regions. To handle diverse element scales, we develop an adaptive variance
mechanism that calibrates reward distributions based on element dimensions.
This framework transforms GUI grounding from sparse binary classification to
dense continuous optimization, where Gaussian distributions generate rich
gradient signals that guide models toward optimal interaction positions.
Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro
benchmarks demonstrate that GUI-G^2, substantially outperforms
state-of-the-art method UI-TARS-72B, with the most significant improvement of
24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides
superior robustness to interface variations and enhanced generalization to
unseen layouts, establishing a new paradigm for spatial reasoning in GUI
interaction tasks.