ChatPaper.aiChatPaper

SafeGround : Savoir quand faire confiance aux modèles d'ancrage d'interface graphique via l'étalonnage de l'incertitude

SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

February 2, 2026
papers.authors: Qingni Wang, Yue Fan, Xin Eric Wang
cs.AI

papers.abstract

L'ancrage d'interface utilisateur graphique (GUI) vise à traduire des instructions en langage naturel en coordonnées d'écran exécutables, permettant une interaction automatisée avec l'interface. Néanmoins, un ancrage incorrect peut entraîner des actions coûteuses et difficiles à inverser (par exemple, des approbations de paiement erronées), soulevant des préoccupations quant à la fiabilité des modèles. Dans cet article, nous présentons SafeGround, un cadre conscient de l'incertitude pour les modèles d'ancrage de GUI qui permet des prédictions sensibles au risque grâce à des étalonnages avant les tests. SafeGround tire parti d'une méthode de quantification d'incertitude sensible à la distribution pour capturer la dispersion spatiale d'échantillons stochastiques provenant des sorties de tout modèle donné. Ensuite, via le processus d'étalonnage, SafeGround dérive un seuil de décision au moment du test avec un contrôle statistiquement garanti du taux de fausses découvertes (FDR). Nous appliquons SafeGround à plusieurs modèles d'ancrage de GUI pour le benchmark exigeant ScreenSpot-Pro. Les résultats expérimentaux montrent que notre mesure d'incertitude surpasse systématiquement les bases de référence existantes pour distinguer les prédictions correctes des incorrectes, tandis que le seuil étalonné permet de manière fiable un contrôle rigoureux des risques et offre des potentiels d'améliorations substantielles de la précision au niveau du système. Sur plusieurs modèles d'ancrage de GUI, SafeGround améliore la précision au niveau du système jusqu'à 5,38 points de pourcentage par rapport à l'inférence utilisant uniquement Gemini.
English
Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.
PDF31February 5, 2026