HyperClick: Avanzando en la Fundamentación Confiable de GUI mediante Calibración de Incertidumbre
HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration
October 31, 2025
Autores: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan
cs.AI
Resumen
Los agentes autónomos de interfaz gráfica de usuario (GUI) dependen de una correcta fundamentación en la GUI, que mapea las instrucciones lingüísticas a coordenadas en pantalla, para ejecutar comandos de usuario. Sin embargo, los modelos actuales, ya sean entrenados mediante ajuste fino supervisado (SFT) o ajuste fino por refuerzo (RFT), carecen de autoconciencia sobre sus límites de capacidad, lo que genera sobreconfianza y predicciones poco fiables. Primero evaluamos sistemáticamente la confianza probabilística y verbalizada en modelos generales y específicos de GUI, revelando una desalineación entre la confianza y la precisión real, lo cual es especialmente crítico en tareas de automatización de GUI dinámicas, donde un solo error puede causar el fallo de la tarea. Para abordarlo, proponemos HyperClick, un marco novedoso que mejora la fundamentación fiable de la GUI mediante calibración de incertidumbre. HyperClick introduce un mecanismo de recompensa dual, combinando una recompensa binaria por acciones correctas con un modelado de confianza espacial basado en Gaussiana truncada, calibrado utilizando la puntuación de Brier. Este enfoque optimiza conjuntamente la precisión de la fundamentación y la fiabilidad de la confianza, fomentando la autocrítica introspectiva. Experimentos exhaustivos en siete benchmarks de desafío muestran que HyperClick alcanza un rendimiento de vanguardia mientras proporciona una confianza bien calibrada. Al permitir una calibración explícita de la confianza y una autocrítica introspectiva, HyperClick reduce la sobreconfianza y respalda una automatización de GUI más fiable.
English
Autonomous Graphical User Interface (GUI) agents rely on accurate GUI
grounding, which maps language instructions to on-screen coordinates, to
execute user commands. However, current models, whether trained via supervised
fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of
their capability boundaries, leading to overconfidence and unreliable
predictions. We first systematically evaluate probabilistic and verbalized
confidence in general and GUI-specific models, revealing a misalignment between
confidence and actual accuracy, which is particularly critical in dynamic GUI
automation tasks, where single errors can cause task failure. To address this,
we propose HyperClick, a novel framework that enhances reliable GUI grounding
through uncertainty calibration. HyperClick introduces a dual reward mechanism,
combining a binary reward for correct actions with a truncated Gaussian-based
spatial confidence modeling, calibrated using the Brier score. This approach
jointly optimizes grounding accuracy and confidence reliability, fostering
introspective self-criticism. Extensive experiments on seven challenge
benchmarks show that HyperClick achieves state-of-the-art performance while
providing well-calibrated confidence. By enabling explicit confidence
calibration and introspective self-criticism, HyperClick reduces overconfidence
and supports more reliable GUI automation.