SafeGround: Saiba Quando Confiar em Modelos de Ancoragem de Interface Gráfica por meio de Calibração de Incerteza

Resumo

A fundamentação de Interface Gráfica do Utilizador (GUI) visa traduzir instruções em linguagem natural em coordenadas de ecrã executáveis, permitindo a interação automatizada com a GUI. No entanto, uma fundamentação incorreta pode resultar em ações custosas e difíceis de reverter (por exemplo, aprovações de pagamento erróneas), levantando preocupações sobre a fiabilidade dos modelos. Neste artigo, apresentamos o SafeGround, uma estrutura consciente da incerteza para modelos de fundamentação de GUI que permite previsões conscientes do risco através de calibrações antes dos testes. O SafeGround aproveita um método de quantificação de incerteza consciente da distribuição para capturar a dispersão espacial de amostras estocásticas provenientes das saídas de qualquer modelo dado. Em seguida, através do processo de calibração, o SafeGround deriva um limiar de decisão em tempo de teste com controlo da taxa de descobertas falsas (FDR) estatisticamente garantido. Aplicamos o SafeGround em múltiplos modelos de fundamentação de GUI para o desafiante benchmark ScreenSpot-Pro. Os resultados experimentais mostram que a nossa medida de incerteza supera consistentemente as linhas de base existentes na distinção entre previsões corretas e incorretas, enquanto o limiar calibrado permite de forma fiável um controlo de risco rigoroso e o potencial de melhorias substanciais na precisão a nível do sistema. Em vários modelos de fundamentação de GUI, o SafeGround melhora a precisão a nível do sistema em até 5,38 pontos percentuais em relação à inferência apenas com o Gemini.

English

Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.

SafeGround: Saiba Quando Confiar em Modelos de Ancoragem de Interface Gráfica por meio de Calibração de Incerteza

SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

Resumo

Support