HyperClick: Migliorare l'Affidabilità del Grounding delle GUI tramite Calibrazione dell'Incertezza

Abstract

Gli agenti autonomi per interfacce grafiche (GUI) si basano su un accurato grounding della GUI, che mappa le istruzioni linguistiche alle coordinate sullo schermo, per eseguire i comandi utente. Tuttavia, i modelli attuali, siano essi addestrati tramite fine-tuning supervisionato (SFT) o fine-tuning per rinforzo (RFT), mancano di autoconsapevolezza riguardo ai propri limiti di capacità, portando a eccessiva sicurezza e previsioni inaffidabili. Inizialmente valutiamo sistematicamente la confidenza probabilistica e verbalizzata in modelli generici e specifici per GUI, rivelando un disallineamento tra la confidenza e l'accuratezza effettiva, particolarmente critico nei compiti di automazione GUI dinamici, dove singoli errori possono causare il fallimento del task. Per affrontare questo problema, proponiamo HyperClick, un framework innovativo che migliora l'affidabilità del grounding della GUI attraverso la calibrazione dell'incertezza. HyperClick introduce un meccanismo di ricompensa duale, combinando una ricompensa binaria per le azioni corrette con una modellazione della confidenza spaziale basata su Gaussiana troncata, calibrata utilizzando il punteggio di Brier. Questo approccio ottimizza congiuntamente l'accuratezza del grounding e l'affidabilità della confidenza, promuovendo l'autocritica introspettiva. Esperimenti estesi su sette benchmark di difficoltà mostrano che HyperClick raggiunge prestazioni allo stato dell'arte fornendo al contempo una confidenza ben calibrata. Abilitando la calibrazione esplicita della confidenza e l'autocritica introspettiva, HyperClick riduce l'eccessiva sicurezza e supporta un'automazione GUI più affidabile.

English

Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.

HyperClick: Migliorare l'Affidabilità del Grounding delle GUI tramite Calibrazione dell'Incertezza

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

Abstract

Support