HyperClick: Verbesserung der zuverlässigen GUI-Verankerung durch Unsicherheitskalibrierung

papers.abstract

Autonome Agenten für grafische Benutzeroberflächen (GUI) sind auf eine präzise GUI-Verankerung angewiesen, bei der Sprachbefehle auf Bildschirmkoordinaten abgebildet werden, um Benutzeranweisungen auszuführen. Allerdings fehlt aktuellen Modellen, unabhängig davon, ob sie durch überwachtes Fein-Tuning (SFT) oder verstärkendes Fein-Tuning (RFT) trainiert wurden, ein Selbstbewusstsein für ihre Fähigkeitsgrenzen, was zu Überzeugtheit und unzuverlässigen Vorhersagen führt. Wir evaluieren zunächst systematisch probabilistisches und verbalisiertes Vertrauen in allgemeinen und GUI-spezifischen Modellen und zeigen eine Fehlausrichtung zwischen Vertrauen und tatsächlicher Genauigkeit auf, die besonders bei dynamischen GUI-Automatisierungsaufgaben kritisch ist, wo einzelne Fehler zum Aufgabenversagen führen können. Um dies zu adressieren, schlagen wir HyperClick vor, ein neuartiges Framework, das zuverlässige GUI-Verankerung durch Unsicherheitskalibrierung verbessert. HyperClick führt einen dualen Belohnungsmechanismus ein, der eine binäre Belohnung für korrekte Aktionen mit einer modellierten räumlichen Vertrauensbewertung auf Basis einer truncated Gaussian-Funktion kombiniert, kalibriert mittels des Brier-Scores. Dieser Ansatz optimiert gemeinsam Verankerungsgenauigkeit und Vertrauenszuverlässigkeit und fördert introspektive Selbstkritik. Umfangreiche Experimente auf sieben Herausforderungs-Benchmarks zeigen, dass HyperClick state-of-the-art Leistung erzielt und dabei gut kalibriertes Vertrauen bietet. Durch explizite Vertrauenskalibrierung und introspektive Selbstkritik reduziert HyperClick Überzeugtheit und unterstützt zuverlässigere GUI-Automatisierung.

English

Autonomous Graphical User Interface (GUI) agents rely on accurate GUI grounding, which maps language instructions to on-screen coordinates, to execute user commands. However, current models, whether trained via supervised fine-tuning (SFT) or reinforcement fine-tuning (RFT), lack self-awareness of their capability boundaries, leading to overconfidence and unreliable predictions. We first systematically evaluate probabilistic and verbalized confidence in general and GUI-specific models, revealing a misalignment between confidence and actual accuracy, which is particularly critical in dynamic GUI automation tasks, where single errors can cause task failure. To address this, we propose HyperClick, a novel framework that enhances reliable GUI grounding through uncertainty calibration. HyperClick introduces a dual reward mechanism, combining a binary reward for correct actions with a truncated Gaussian-based spatial confidence modeling, calibrated using the Brier score. This approach jointly optimizes grounding accuracy and confidence reliability, fostering introspective self-criticism. Extensive experiments on seven challenge benchmarks show that HyperClick achieves state-of-the-art performance while providing well-calibrated confidence. By enabling explicit confidence calibration and introspective self-criticism, HyperClick reduces overconfidence and supports more reliable GUI automation.

HyperClick: Verbesserung der zuverlässigen GUI-Verankerung durch Unsicherheitskalibrierung

HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

papers.abstract

Support