HyperClick: Повышение надежности привязки к графическому интерфейсу через калибровку неопределенностей

Аннотация

Автономные агенты графического интерфейса пользователя (GUI) полагаются на точное привязывание к GUI, которое сопоставляет языковые инструкции с координатами на экране, для выполнения пользовательских команд. Однако современные модели, обученные посредством контролируемого тонкого настройки (SFT) или тонкого настройки с подкреплением (RFT), не обладают самосознанием границ своих возможностей, что приводит к излишней уверенности и ненадежным прогнозам. Мы сначала систематически оцениваем вероятностную и вербализованную уверенность в общих и специализированных для GUI моделях, выявляя рассогласование между уверенностью и фактической точностью, что особенно критично в задачах автоматизации динамического GUI, где единичные ошибки могут привести к сбою задачи. Для решения этой проблемы мы предлагаем HyperClick, новую структуру, которая повышает надежность привязывания к GUI за счет калибровки неопределенности. HyperClick вводит механизм двойного вознаграждения, сочетающий бинарное вознаграждение за правильные действия с пространственным моделированием уверенности на основе усеченного гауссова распределения, калибруемого с использованием оценки Брайера. Этот подход совместно оптимизирует точность привязывания и надежность уверенности, способствуя интроспективной самокритике. Многочисленные эксперименты на семи тестовых наборах показывают, что HyperClick достигает наилучшей производительности, обеспечивая хорошо калиброванную уверенность. Благодаря явной калибровке уверенности и интроспективной самокритике, HyperClick снижает излишнюю уверенность и обеспечивает более надежную автоматизацию GUI.

English

Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.

HyperClick: Повышение надежности привязки к графическому интерфейсу через калибровку неопределенностей

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

Аннотация

Support