SafeGround: Saber cuándo confiar en los modelos de anclaje visual mediante calibración de incertidumbre
SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration
February 2, 2026
Autores: Qingni Wang, Yue Fan, Xin Eric Wang
cs.AI
Resumen
La fundamentación de Interfaces Gráficas de Usuario (GUI) tiene como objetivo traducir instrucciones en lenguaje natural a coordenadas de pantalla ejecutables, permitiendo la interacción automatizada con la GUI. Sin embargo, una fundamentación incorrecta puede dar lugar a acciones costosas y difíciles de revertir (por ejemplo, aprobaciones de pagos erróneas), lo que genera preocupaciones sobre la fiabilidad de los modelos. En este artículo, presentamos SafeGround, un marco consciente de la incertidumbre para modelos de fundamentación de GUI que permite predicciones conscientes del riesgo mediante calibraciones previas a las pruebas. SafeGround aprovecha un método de cuantificación de incertidumbre consciente de la distribución para capturar la dispersión espacial de muestras estocásticas procedentes de las salidas de cualquier modelo dado. Luego, mediante el proceso de calibración, SafeGround deriva un umbral de decisión en tiempo de prueba con un control de la tasa de descubrimiento falso (FDR) estadísticamente garantizado. Aplicamos SafeGround en múltiples modelos de fundamentación de GUI para el desafiante benchmark ScreenSpot-Pro. Los resultados experimentales muestran que nuestra medida de incertidumbre supera consistentemente a los métodos de referencia existentes en la distinción entre predicciones correctas e incorrectas, mientras que el umbral calibrado permite de forma fiable un control de riesgo riguroso y el potencial de mejoras sustanciales en la precisión a nivel del sistema. En múltiples modelos de fundamentación de GUI, SafeGround mejora la precisión a nivel del sistema hasta en 5.38 puntos porcentuales en comparación con la inferencia basada únicamente en Gemini.
English
Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.