ChatPaper.aiChatPaper

HyperClick: 不確実性キャリブレーションによる信頼性の高いGUIグラウンディングの進展

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

October 31, 2025
著者: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan
cs.AI

要旨

自律的なグラフィカルユーザーインタフェース(GUI)エージェントは、ユーザーの指示を画面上の座標に対応付ける正確なGUIグラウンディングに依存してコマンドを実行する。しかし、教師ありファインチューニング(SFT)または強化学習ファインチューニング(RFT)で学習された現在のモデルは、自身の能力限界に対する自己認識を欠いており、過信と信頼性の低い予測を引き起こす。本研究ではまず、一般モデルおよびGUI特化モデルにおける確率的信頼度と言語化された信頼度を体系的に評価し、信頼度と実際の精度の間の不整合を明らかにする。この問題は、単一の誤りがタスク失敗につながる動的GUI自動化タスクにおいて特に深刻である。この課題に対処するため、不確実性較正を通じて信頼性の高いGUIグラウンディングを強化する新規フレームワークHyperClickを提案する。HyperClickは、正しい行動に対する二値報酬と、Brierスコアを用いて較正された切断ガウス分布に基づく空間的信頼度モデリングを組み合わせた二重報酬メカニズムを導入する。このアプローチは、グラウンディング精度と信頼度の確かさを共同で最適化し、内省的な自己批判を促進する。7つのチャレンジベンチマークによる大規模な実験により、HyperClickが較正された信頼度を提供しつつ、State-of-the-Artの性能を達成することを示す。明示的な信頼度較正と内省的な自己批判を可能にすることで、HyperClickは過信を軽減し、より信頼性の高いGUI自動化を実現する。
English
Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.
PDF202December 2, 2025