ChatPaper.aiChatPaper

HyperClick: 불확실성 보정을 통한 신뢰할 수 있는 GUI 그라운딩 향상

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

October 31, 2025
저자: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan
cs.AI

초록

자율 그래픽 사용자 인터페이스(GUI) 에이전트는 사용자 명령을 실행하기 위해 언어 지시를 화면 좌표에 매핑하는 정확한 GUI 그라운딩에 의존합니다. 그러나 감독 미세 조정(SFT) 또는 강화 미세 조정(RFT)을 통해 훈련된 현재 모델들은 자신의 능력 한계에 대한 자기 인식이 부족하여 과도한 자신감과 신뢰할 수 없는 예측을 보입니다. 우리는 먼저 일반 및 GUI 특화 모델에서 확률적 및 언어화된 신뢰도를 체계적으로 평가하여, 단일 오류가 작업 실패로 이어질 수 있는 동적 GUI 자동화 작업에서 특히 중요한, 신뢰도와 실제 정확도 간의 불일치를 밝혔습니다. 이를 해결하기 위해 우리는 불확실성 보정을 통해 신뢰할 수 있는 GUI 그라운딩을 향상시키는 새로운 프레임워크인 HyperClick을 제안합니다. HyperClick은 정확한 행동에 대한 이진 보상과 Brier 점수를 사용하여 보정된 절단 가우시안 기반 공간 신뢰도 모델링을 결합한 이중 보상 메커니즘을 도입합니다. 이 접근 방식은 그라운딩 정확도와 신뢰도 안정성을 공동으로 최적화하며 성찰적 자기 비판을 촉진합니다. 7개의 도전 벤치마크에 대한 광범위한 실험 결과, HyperClick이 잘 보정된 신뢰도를 제공하면서도 최첨단 성능을 달성함을 보여줍니다. 명시적 신뢰도 보정과 성찰적 자기 비판을 가능하게 함으로써 HyperClick은 과도한 자신감을 줄이고 더 신뢰할 수 있는 GUI 자동화를 지원합니다.
English
Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.
PDF202December 2, 2025