HyperClick : Amélioration de la localisation fiable d'éléments d'interface graphique par calibration d'incertitude

papers.abstract

Les agents autonomes d'interface graphique (GUI) reposent sur un ancrage précis des éléments de l'interface, qui consiste à mapper les instructions en langage naturel vers des coordonnées à l'écran, pour exécuter les commandes utilisateur. Cependant, les modèles actuels, qu'ils soient entraînés par fine-tuning supervisé (SFT) ou par fine-tuning par renforcement (RFT), manquent d'auto-conscience de leurs limites capacitives, conduisant à une surconfiance et à des prédictions peu fiables. Nous évaluons d'abord systématiquement la confiance probabiliste et verbalisée dans les modèles généraux et spécifiques aux GUI, révélant un décalage entre la confiance et la précision réelle, ce qui est particulièrement critique dans les tâches d'automatisation d'interfaces dynamiques, où une seule erreur peut entraîner l'échec de la tâche. Pour résoudre ce problème, nous proposons HyperClick, un nouveau cadre qui améliore la fiabilité de l'ancrage des GUI par le calibrage d'incertitude. HyperClick introduit un mécanisme de récompense dual, combinant une récompense binaire pour les actions correctes avec une modélisation de la confiance spatiale basée sur une Gaussienne tronquée, calibrée à l'aide du score de Brier. Cette approche optimise conjointement la précision de l'ancrage et la fiabilité de la confiance, favorisant une introspection autocritique. Des expériences approfondies sur sept benchmarks difficiles montrent qu'HyperClick atteint des performances à l'état de l'art tout en fournissant une confiance bien calibrée. En permettant un calibrage explicite de la confiance et une introspection autocritique, HyperClick réduit la surconfiance et favorise une automatisation des GUI plus fiable.

English

Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.

HyperClick : Amélioration de la localisation fiable d'éléments d'interface graphique par calibration d'incertitude

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

papers.abstract

Support