HyperClick: Migliorare l'Affidabilità del Grounding delle GUI tramite Calibrazione dell'Incertezza
HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration
October 31, 2025
Autori: Shaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan
cs.AI
Abstract
Gli agenti autonomi per interfacce grafiche (GUI) si basano su un accurato grounding della GUI, che mappa le istruzioni linguistiche alle coordinate sullo schermo, per eseguire i comandi utente. Tuttavia, i modelli attuali, siano essi addestrati tramite fine-tuning supervisionato (SFT) o fine-tuning per rinforzo (RFT), mancano di autoconsapevolezza riguardo ai propri limiti di capacità, portando a eccessiva sicurezza e previsioni inaffidabili. Inizialmente valutiamo sistematicamente la confidenza probabilistica e verbalizzata in modelli generici e specifici per GUI, rivelando un disallineamento tra la confidenza e l'accuratezza effettiva, particolarmente critico nei compiti di automazione GUI dinamici, dove singoli errori possono causare il fallimento del task. Per affrontare questo problema, proponiamo HyperClick, un framework innovativo che migliora l'affidabilità del grounding della GUI attraverso la calibrazione dell'incertezza. HyperClick introduce un meccanismo di ricompensa duale, combinando una ricompensa binaria per le azioni corrette con una modellazione della confidenza spaziale basata su Gaussiana troncata, calibrata utilizzando il punteggio di Brier. Questo approccio ottimizza congiuntamente l'accuratezza del grounding e l'affidabilità della confidenza, promuovendo l'autocritica introspettiva. Esperimenti estesi su sette benchmark di difficoltà mostrano che HyperClick raggiunge prestazioni allo stato dell'arte fornendo al contempo una confidenza ben calibrata. Abilitando la calibrazione esplicita della confidenza e l'autocritica introspettiva, HyperClick riduce l'eccessiva sicurezza e supporta un'automazione GUI più affidabile.
English
Autonomous Graphical User Interface (GUI) agents rely on accurate GUI
grounding, which maps language instructions to on-screen coordinates, to
execute user commands. However, current models, whether trained via supervised
fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of
their capability boundaries, leading to overconfidence and unreliable
predictions. We first systematically evaluate probabilistic and verbalized
confidence in general and GUI-specific models, revealing a misalignment between
confidence and actual accuracy, which is particularly critical in dynamic GUI
automation tasks, where single errors can cause task failure. To address this,
we propose HyperClick, a novel framework that enhances reliable GUI grounding
through uncertainty calibration. HyperClick introduces a dual reward mechanism,
combining a binary reward for correct actions with a truncated Gaussian-based
spatial confidence modeling, calibrated using the Brier score. This approach
jointly optimizes grounding accuracy and confidence reliability, fostering
introspective self-criticism. Extensive experiments on seven challenge
benchmarks show that HyperClick achieves state-of-the-art performance while
providing well-calibrated confidence. By enabling explicit confidence
calibration and introspective self-criticism, HyperClick reduces overconfidence
and supports more reliable GUI automation.