GUI-G^2: Modellazione Gaussiana della Ricompensa per il Grounding delle Interfacce Grafiche
GUI-G^2: Gaussian Reward Modeling for GUI Grounding
July 21, 2025
Autori: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Abstract
L'interfaccia grafica utente (GUI) per il grounding mappa le istruzioni in linguaggio naturale su posizioni precise dell'interfaccia per l'interazione autonoma. Gli attuali approcci di apprendimento per rinforzo utilizzano ricompense binarie che trattano gli elementi come obiettivi del tipo "colpito o mancato", creando segnali sparsi che ignorano la natura continua delle interazioni spaziali. Ispirati dal comportamento umano di clic che forma naturalmente distribuzioni gaussiane centrate sugli elementi target, introduciamo GUI Gaussian Grounding Rewards (GUI-G^2), un framework di ricompensa basato su principi che modella gli elementi GUI come distribuzioni gaussiane continue sul piano dell'interfaccia. GUI-G^2 incorpora due meccanismi sinergici: le ricompense puntuali gaussiane modellano la localizzazione precisa attraverso distribuzioni a decadimento esponenziale centrate sui centroidi degli elementi, mentre le ricompense di copertura valutano l'allineamento spaziale misurando la sovrapposizione tra le distribuzioni gaussiane previste e le regioni target. Per gestire scale diverse degli elementi, sviluppiamo un meccanismo di varianza adattativa che calibra le distribuzioni di ricompensa in base alle dimensioni degli elementi. Questo framework trasforma il grounding della GUI da una classificazione binaria sparsa a un'ottimizzazione continua densa, in cui le distribuzioni gaussiane generano segnali di gradiente ricchi che guidano i modelli verso posizioni di interazione ottimali. Esperimenti estesi sui benchmark ScreenSpot, ScreenSpot-v2 e ScreenSpot-Pro dimostrano che GUI-G^2 supera significativamente il metodo all'avanguardia UI-TARS-72B, con il miglioramento più significativo del 24,7% su ScreenSpot-Pro. La nostra analisi rivela che la modellazione continua offre una robustezza superiore alle variazioni dell'interfaccia e una generalizzazione migliorata a layout non visti, stabilendo un nuovo paradigma per il ragionamento spaziale nei compiti di interazione con la GUI.
English
Graphical User Interface (GUI) grounding maps natural language instructions
to precise interface locations for autonomous interaction. Current
reinforcement learning approaches use binary rewards that treat elements as
hit-or-miss targets, creating sparse signals that ignore the continuous nature
of spatial interactions. Motivated by human clicking behavior that naturally
forms Gaussian distributions centered on target elements, we introduce GUI
Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that
models GUI elements as continuous Gaussian distributions across the interface
plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point
rewards model precise localization through exponentially decaying distributions
centered on element centroids, while coverage rewards assess spatial alignment
by measuring the overlap between predicted Gaussian distributions and target
regions. To handle diverse element scales, we develop an adaptive variance
mechanism that calibrates reward distributions based on element dimensions.
This framework transforms GUI grounding from sparse binary classification to
dense continuous optimization, where Gaussian distributions generate rich
gradient signals that guide models toward optimal interaction positions.
Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro
benchmarks demonstrate that GUI-G^2, substantially outperforms
state-of-the-art method UI-TARS-72B, with the most significant improvement of
24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides
superior robustness to interface variations and enhanced generalization to
unseen layouts, establishing a new paradigm for spatial reasoning in GUI
interaction tasks.