ChatPaper.aiChatPaper

SafeGround: 不確実性較正によるGUIグラウンディングモデルの信頼性判断

SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

February 2, 2026
著者: Qingni Wang, Yue Fan, Xin Eric Wang
cs.AI

要旨

グラフィカルユーザインタフェース(GUI)グラウンディングは、自然言語指示を実行可能な画面座標へ変換し、GUIの自動操作を実現することを目的とする。しかし、誤ったグラウンディングは、誤った支払い承認など、取り返しのつかない高コストなアクションを引き起こす可能性があり、モデルの信頼性に対する懸念を生じさせている。本論文では、不確実性を考慮したGUIグラウンディングモデル向けフレームワーク「SafeGround」を提案する。本フレームワークは、テスト前にキャリブレーションを行うことで、リスクを考慮した予測を可能にする。SafeGroundは、分布を考慮した不確実性定量化手法を活用し、任意のモデル出力から得られる確率的サンプルの空間的分散を捉える。その後、キャリブレーション過程を通じて、統計的に保証された偽発見率(FDR)制御を備えたテスト時決定閾値を導出する。我々は、難易度の高いScreenSpot-Proベンチマークにおいて、複数のGUIグラウンディングモデルにSafeGroundを適用した。実験結果から、提案する不確実性指標は、正しい予測と誤った予測を識別するタスクにおいて、既存のベースライン手法を一貫して上回る性能を示した。また、キャリブレーションにより得られた閾値は、厳密なリスク制御を確実に実現し、システムレベルの精度大幅向上の可能性を示唆する。複数のGUIグラウンディングモデルにおいて、SafeGroundはGeminiのみによる推論と比較して、システムレベル精度を最大5.38パーセントポイント向上させた。
English
Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.
PDF31February 5, 2026