GUI-G^2: Gaussiaans Beloningsmodel voor GUI-gronding

Samenvatting

Graphical User Interface (GUI) grounding koppelt natuurlijke taal instructies aan precieze interface locaties voor autonome interactie. Huidige reinforcement learning benaderingen gebruiken binaire beloningen die elementen behandelen als hit-or-miss doelen, wat schaarse signalen creëert die het continue karakter van ruimtelijke interacties negeren. Geïnspireerd door menselijk klikgedrag dat van nature Gaussische distributies vormt die gecentreerd zijn op doelelementen, introduceren we GUI Gaussian Grounding Rewards (GUI-G^2), een principieel beloningskader dat GUI-elementen modelleert als continue Gaussische distributies over het interfacevlak. GUI-G^2 omvat twee synergetische mechanismen: Gaussische puntbeloningen modelleren precieze lokalisatie via exponentieel vervallende distributies gecentreerd op elementcentroïden, terwijl dekkingbeloningen ruimtelijke uitlijning beoordelen door de overlap tussen voorspelde Gaussische distributies en doelregio's te meten. Om diverse elementschalen te hanteren, ontwikkelen we een adaptief variantiemechanisme dat beloningsdistributies kalibreert op basis van elementafmetingen. Dit kader transformeert GUI grounding van schaarse binaire classificatie naar dichte continue optimalisatie, waarbij Gaussische distributies rijke gradiëntsignalen genereren die modellen naar optimale interactieposities leiden. Uitgebreide experimenten over de ScreenSpot, ScreenSpot-v2 en ScreenSpot-Pro benchmarks tonen aan dat GUI-G^2 aanzienlijk beter presteert dan de state-of-the-art methode UI-TARS-72B, met de meest significante verbetering van 24,7% op ScreenSpot-Pro. Onze analyse toont aan dat continue modellering superieure robuustheid biedt tegen interfacevariaties en verbeterde generalisatie naar onbekende lay-outs, wat een nieuw paradigma vestigt voor ruimtelijk redeneren in GUI-interactietaken.

English

Graphical User Interface (GUI) grounding maps natural language instructions to precise interface locations for autonomous interaction. Current reinforcement learning approaches use binary rewards that treat elements as hit-or-miss targets, creating sparse signals that ignore the continuous nature of spatial interactions. Motivated by human clicking behavior that naturally forms Gaussian distributions centered on target elements, we introduce GUI Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that models GUI elements as continuous Gaussian distributions across the interface plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point rewards model precise localization through exponentially decaying distributions centered on element centroids, while coverage rewards assess spatial alignment by measuring the overlap between predicted Gaussian distributions and target regions. To handle diverse element scales, we develop an adaptive variance mechanism that calibrates reward distributions based on element dimensions. This framework transforms GUI grounding from sparse binary classification to dense continuous optimization, where Gaussian distributions generate rich gradient signals that guide models toward optimal interaction positions. Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro benchmarks demonstrate that GUI-G^2, substantially outperforms state-of-the-art method UI-TARS-72B, with the most significant improvement of 24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides superior robustness to interface variations and enhanced generalization to unseen layouts, establishing a new paradigm for spatial reasoning in GUI interaction tasks.

GUI-G^2: Gaussiaans Beloningsmodel voor GUI-gronding

GUI-G^2: Gaussian Reward Modeling for GUI Grounding

Samenvatting

Support