GUI-G^2: Gaussiaans Beloningsmodel voor GUI-gronding
GUI-G^2: Gaussian Reward Modeling for GUI Grounding
July 21, 2025
Auteurs: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Samenvatting
Graphical User Interface (GUI) grounding koppelt natuurlijke taal instructies aan precieze interface locaties voor autonome interactie. Huidige reinforcement learning benaderingen gebruiken binaire beloningen die elementen behandelen als hit-or-miss doelen, wat schaarse signalen creëert die het continue karakter van ruimtelijke interacties negeren. Geïnspireerd door menselijk klikgedrag dat van nature Gaussische distributies vormt die gecentreerd zijn op doelelementen, introduceren we GUI Gaussian Grounding Rewards (GUI-G^2), een principieel beloningskader dat GUI-elementen modelleert als continue Gaussische distributies over het interfacevlak. GUI-G^2 omvat twee synergetische mechanismen: Gaussische puntbeloningen modelleren precieze lokalisatie via exponentieel vervallende distributies gecentreerd op elementcentroïden, terwijl dekkingbeloningen ruimtelijke uitlijning beoordelen door de overlap tussen voorspelde Gaussische distributies en doelregio's te meten. Om diverse elementschalen te hanteren, ontwikkelen we een adaptief variantiemechanisme dat beloningsdistributies kalibreert op basis van elementafmetingen. Dit kader transformeert GUI grounding van schaarse binaire classificatie naar dichte continue optimalisatie, waarbij Gaussische distributies rijke gradiëntsignalen genereren die modellen naar optimale interactieposities leiden. Uitgebreide experimenten over de ScreenSpot, ScreenSpot-v2 en ScreenSpot-Pro benchmarks tonen aan dat GUI-G^2 aanzienlijk beter presteert dan de state-of-the-art methode UI-TARS-72B, met de meest significante verbetering van 24,7% op ScreenSpot-Pro. Onze analyse toont aan dat continue modellering superieure robuustheid biedt tegen interfacevariaties en verbeterde generalisatie naar onbekende lay-outs, wat een nieuw paradigma vestigt voor ruimtelijk redeneren in GUI-interactietaken.
English
Graphical User Interface (GUI) grounding maps natural language instructions
to precise interface locations for autonomous interaction. Current
reinforcement learning approaches use binary rewards that treat elements as
hit-or-miss targets, creating sparse signals that ignore the continuous nature
of spatial interactions. Motivated by human clicking behavior that naturally
forms Gaussian distributions centered on target elements, we introduce GUI
Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that
models GUI elements as continuous Gaussian distributions across the interface
plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point
rewards model precise localization through exponentially decaying distributions
centered on element centroids, while coverage rewards assess spatial alignment
by measuring the overlap between predicted Gaussian distributions and target
regions. To handle diverse element scales, we develop an adaptive variance
mechanism that calibrates reward distributions based on element dimensions.
This framework transforms GUI grounding from sparse binary classification to
dense continuous optimization, where Gaussian distributions generate rich
gradient signals that guide models toward optimal interaction positions.
Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro
benchmarks demonstrate that GUI-G^2, substantially outperforms
state-of-the-art method UI-TARS-72B, with the most significant improvement of
24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides
superior robustness to interface variations and enhanced generalization to
unseen layouts, establishing a new paradigm for spatial reasoning in GUI
interaction tasks.