SafeGround: Weten wanneer GUI-groundingmodellen te vertrouwen zijn via onzekerheidskalibratie
SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration
February 2, 2026
Auteurs: Qingni Wang, Yue Fan, Xin Eric Wang
cs.AI
Samenvatting
Graphical User Interface (GUI) grounding heeft als doel natuurlijke taal-instructies te vertalen naar uitvoerbare schermcoördinaten, waardoor geautomatiseerde GUI-interactie mogelijk wordt. Onjuiste grounding kan echter leiden tot kostbare, moeilijk terug te draaien acties (zoals foutieve betalingsgoedkeuringen), wat zorgen oproept over de betrouwbaarheid van modellen. In dit artikel introduceren we SafeGround, een onzekerheidsbewust raamwerk voor GUI-groundingmodellen dat risicobewuste voorspellingen mogelijk maakt door kalibraties vóór de testfase. SafeGround benut een distributiebewuste methode voor onzekerheidskwantificering om de ruimtelijke spreiding van stochastische samples uit de outputs van een willekeurig model vast te leggen. Vervolgens leidt SafeGround via het kalibratieproces een beslissingsdrempelwaarde tijdens testtijd af met een statistisch gegarandeerde beheersing van het false discovery rate (FDR). We passen SafeGround toe op meerdere GUI-groundingmodellen voor de uitdagende ScreenSpot-Pro-benchmark. Experimentele resultaten tonen aan dat onze onzekerheidsmaat consistent beter presteert dan bestaande baseline-methoden in het onderscheiden van correcte en incorrecte voorspellingen, terwijl de gekalibreerde drempelwaarde betrouwbaar strenge risicobeheersing en het potentieel voor substantiële nauwkeurigheidsverbeteringen op systeemniveau mogelijk maakt. Over meerdere GUI-groundingmodellen verbetert SafeGround de nauwkeurigheid op systeemniveau met tot 5,38 procentpunt ten opzichte van inference met alleen Gemini.
English
Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.