ChatPaper.aiChatPaper

HyperClick: Avanzando en la Fundamentación Confiable de GUI mediante Calibración de Incertidumbre

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

October 31, 2025
Autores: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan
cs.AI

Resumen

Los agentes autónomos de interfaz gráfica de usuario (GUI) dependen de una correcta fundamentación en la GUI, que mapea las instrucciones lingüísticas a coordenadas en pantalla, para ejecutar comandos de usuario. Sin embargo, los modelos actuales, ya sean entrenados mediante ajuste fino supervisado (SFT) o ajuste fino por refuerzo (RFT), carecen de autoconciencia sobre sus límites de capacidad, lo que genera sobreconfianza y predicciones poco fiables. Primero evaluamos sistemáticamente la confianza probabilística y verbalizada en modelos generales y específicos de GUI, revelando una desalineación entre la confianza y la precisión real, lo cual es especialmente crítico en tareas de automatización de GUI dinámicas, donde un solo error puede causar el fallo de la tarea. Para abordarlo, proponemos HyperClick, un marco novedoso que mejora la fundamentación fiable de la GUI mediante calibración de incertidumbre. HyperClick introduce un mecanismo de recompensa dual, combinando una recompensa binaria por acciones correctas con un modelado de confianza espacial basado en Gaussiana truncada, calibrado utilizando la puntuación de Brier. Este enfoque optimiza conjuntamente la precisión de la fundamentación y la fiabilidad de la confianza, fomentando la autocrítica introspectiva. Experimentos exhaustivos en siete benchmarks de desafío muestran que HyperClick alcanza un rendimiento de vanguardia mientras proporciona una confianza bien calibrada. Al permitir una calibración explícita de la confianza y una autocrítica introspectiva, HyperClick reduce la sobreconfianza y respalda una automatización de GUI más fiable.
English
Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.
PDF202December 2, 2025