SafeGround: 불확실성 보정을 통한 GUI 접지 모델 신뢰 시점 판단
SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration
February 2, 2026
저자: Qingni Wang, Yue Fan, Xin Eric Wang
cs.AI
초록
그래픽 사용자 인터페이스(GUI) 그라운딩은 자연어 명령을 실행 가능한 화면 좌표로 변환하여 자동화된 GUI 상호작용을 가능하게 하는 것을 목표로 합니다. 그러나 잘못된 그라운딩은 잘못된 결제 승인과 같이 비용이 크고 되돌리기 어려운 작업을 초래할 수 있어 모델 신뢰성에 대한 우려를 제기합니다. 본 논문에서는 테스트 전 보정을 통해 위험 인식 예측이 가능한 GUI 그라운딩 모델용 불확실성 인식 프레임워크인 SafeGround를 소개합니다. SafeGround는 분포 인식 불확실성 정량화 방법을 활용하여 주어진 모델 출력에서 생성된 확률적 샘플들의 공간적 분산을 포착합니다. 이후 보정 과정을 통해 통계적으로 보장된 오발견율(FDR) 제어를 갖는 테스트 시점 의사 결정 임계값을 도출합니다. 우리는 도전적인 ScreenSpot-Pro 벤치마크에 대해 여러 GUI 그라운딩 모델에 SafeGround를 적용했습니다. 실험 결과, 우리의 불확실성 측정 방법이 올바른 예측과 잘못된 예측을 구분하는 데 있어 기존 기준 방법들을 지속적으로 능가하는 한편, 보정된 임계값은 엄격한 위험 제어와 상당한 시스템 수준 정확도 향상 가능성을 안정적으로 제공했습니다. 여러 GUI 그라운딩 모델에서 SafeGround는 Gemini 단독 추론 대비 시스템 수준 정확도를 최대 5.38% 포인트까지 향상시켰습니다.
English
Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.