SafeGround: Sapere Quando Fidarsi dei Modelli di Grounding GUI tramite Calibrazione dell'Incertezza

Abstract

La fondazione dell'interfaccia grafica utente (GUI) mira a tradurre le istruzioni in linguaggio naturale in coordinate schermo eseguibili, consentendo l'interazione automatizzata con la GUI. Tuttavia, una fondazione errata può comportare azioni costose e difficilmente reversibili (ad esempio, approvazioni di pagamento errate), sollevando preoccupazioni sull'affidabilità del modello. In questo articolo, introduciamo SafeGround, un framework consapevole dell'incertezza per i modelli di fondazione GUI che abilita previsioni risk-aware attraverso calibrazioni prima del testing. SafeGround utilizza un metodo di quantificazione dell'incertezza distribution-aware per catturare la dispersione spaziale di campioni stocastici dagli output di qualsiasi modello dato. Successivamente, attraverso il processo di calibrazione, SafeGround deriva una soglia decisionale al momento del test con un controllo del tasso di falsi scoperti (FDR) garantito statisticamente. Applichiamo SafeGround su molteplici modelli di fondazione GUI per il benchmark impegnativo ScreenSpot-Pro. I risultati sperimentali mostrano che la nostra misura di incertezza supera costantemente i baseline esistenti nel distinguere le previsioni corrette da quelle errate, mentre la soglia calibrata consente in modo affidabile un rigoroso controllo del rischio e il potenziale di sostanziali miglioramenti dell'accuratezza a livello di sistema. Su molteplici modelli di fondazione GUI, SafeGround migliora l'accuratezza a livello di sistema fino a 5,38 punti percentuali rispetto all'inferenza basata solo su Gemini.

English

Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.

SafeGround: Sapere Quando Fidarsi dei Modelli di Grounding GUI tramite Calibrazione dell'Incertezza

SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

Abstract

Support