HyperClick : Amélioration de la localisation fiable d'éléments d'interface graphique par calibration d'incertitude
HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration
October 31, 2025
papers.authors: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan
cs.AI
papers.abstract
Les agents autonomes d'interface graphique (GUI) reposent sur un ancrage précis des éléments de l'interface, qui consiste à mapper les instructions en langage naturel vers des coordonnées à l'écran, pour exécuter les commandes utilisateur. Cependant, les modèles actuels, qu'ils soient entraînés par fine-tuning supervisé (SFT) ou par fine-tuning par renforcement (RFT), manquent d'auto-conscience de leurs limites capacitives, conduisant à une surconfiance et à des prédictions peu fiables. Nous évaluons d'abord systématiquement la confiance probabiliste et verbalisée dans les modèles généraux et spécifiques aux GUI, révélant un décalage entre la confiance et la précision réelle, ce qui est particulièrement critique dans les tâches d'automatisation d'interfaces dynamiques, où une seule erreur peut entraîner l'échec de la tâche. Pour résoudre ce problème, nous proposons HyperClick, un nouveau cadre qui améliore la fiabilité de l'ancrage des GUI par le calibrage d'incertitude. HyperClick introduit un mécanisme de récompense dual, combinant une récompense binaire pour les actions correctes avec une modélisation de la confiance spatiale basée sur une Gaussienne tronquée, calibrée à l'aide du score de Brier. Cette approche optimise conjointement la précision de l'ancrage et la fiabilité de la confiance, favorisant une introspection autocritique. Des expériences approfondies sur sept benchmarks difficiles montrent qu'HyperClick atteint des performances à l'état de l'art tout en fournissant une confiance bien calibrée. En permettant un calibrage explicite de la confiance et une introspection autocritique, HyperClick réduit la surconfiance et favorise une automatisation des GUI plus fiable.
English
Autonomous Graphical User Interface (GUI) agents rely on accurate GUI
grounding, which maps language instructions to on-screen coordinates, to
execute user commands. However, current models, whether trained via supervised
fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of
their capability boundaries, leading to overconfidence and unreliable
predictions. We first systematically evaluate probabilistic and verbalized
confidence in general and GUI-specific models, revealing a misalignment between
confidence and actual accuracy, which is particularly critical in dynamic GUI
automation tasks, where single errors can cause task failure. To address this,
we propose HyperClick, a novel framework that enhances reliable GUI grounding
through uncertainty calibration. HyperClick introduces a dual reward mechanism,
combining a binary reward for correct actions with a truncated Gaussian-based
spatial confidence modeling, calibrated using the Brier score. This approach
jointly optimizes grounding accuracy and confidence reliability, fostering
introspective self-criticism. Extensive experiments on seven challenge
benchmarks show that HyperClick achieves state-of-the-art performance while
providing well-calibrated confidence. By enabling explicit confidence
calibration and introspective self-criticism, HyperClick reduces overconfidence
and supports more reliable GUI automation.