SafeGround: Определение надежности моделей привязки к графическому интерфейсу с помощью калибровки неопределенности

Аннотация

Задача позиционирования в графическом интерфейсе пользователя (GUI) заключается в переводе инструкций на естественном языке в исполняемые экранные координаты, что позволяет автоматизировать взаимодействие с GUI. Однако некорректное позиционирование может привести к дорогостоящим и труднообратимым действиям (например, к ошибочному подтверждению платежей), вызывая обеспокоенность относительно надежности моделей. В данной статье мы представляем SafeGround — осознающий неопределенность фреймворк для моделей позиционирования в GUI, который обеспечивает прогнозирование с учетом риска за счет калибровки до тестирования. SafeGround использует метод количественной оценки неопределенности, учитывающий распределение, для захвата пространственного разброса стохастических выборок из выходных данных любой заданной модели. Затем в процессе калибровки SafeGround выводит порог принятия решений во время тестирования со статистически гарантированным контролем уровня ложных открытий (False Discovery Rate, FDR). Мы применяем SafeGround к нескольким моделям позиционирования в GUI для сложного бенчмарка ScreenSpot-Pro. Результаты экспериментов показывают, что наша мера неопределенности последовательно превосходит существующие базовые методы в различении корректных и некорректных прогнозов, в то время как калиброванный порог надежно обеспечивает строгий контроль рисков и открывает потенциал для существенного повышения точности на системном уровне. Для различных моделей позиционирования в GUI SafeGround повышает точность на системном уровне до 5,38 процентных пунктов по сравнению с выводом только на основе Gemini.

English

Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.

SafeGround: Определение надежности моделей привязки к графическому интерфейсу с помощью калибровки неопределенности

SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

Аннотация

Support