Dem richtigen Lehrer vertrauen: Qualitätsbewusste Selbstdestillation für GUI Grounding

Zusammenfassung

Die grafische Benutzeroberflächenverankerung (GUI Grounding) erfordert, dass Vision-Language-Modelle (VLMs) kleine Zielelemente in hochauflösenden Screenshots identifizieren und präzise Bildschirmkoordinaten vorhersagen. Die On-Policy-Selbstdestillation (OPSD) ist ein vielversprechender Post-Training-Ansatz für diese koordinatensensitive Aufgabe, da sie dichte Lehrersignale auf Token-Ebene über harte Koordinatenlabels hinaus bereitstellt. Allerdings ist die naive OPSD nicht optimal für GUI Grounding geeignet: Die OPSD evaluiert den Lehrer auf von Schülern generierten Präfixen, wobei die Qualität der Koordinaten-Token-Lehrersignale nachlassen kann, wenn das Präfix bereits von der Zielkoordinate abweicht, was zu unzuverlässigen Lehrersignalen führt. Um dies zu mildern, schlagen wir eine qualitätsbewusste Selbstdestillation für VLM-basiertes GUI Grounding vor, die die Qualität der Koordinaten-Token-Lehrersignale durch weiches korrektheitsbewusstes Gating und Skalierung der Lehrerwahrscheinlichkeit verbessert. Das weiche korrektheitsbewusste Tor prüft, ob die aktuelle Koordinaten-Token-Vorhersage des Lehrers unter dem vom Schüler generierten Präfix noch zur Ground-Truth-Box vervollständigt werden kann. Ist dies nicht der Fall, wird das entsprechende Lehrersignal heruntergewichtet. Die Skalierung der Lehrerwahrscheinlichkeit nutzt dann das Vertrauen des Lehrers als leichtgewichtigen Faktor, um die Stärke der getorten Überwachung weiter zu kalibrieren. Ein zentraler empirischer Befund ist, dass keine Komponente allein die Gesamtleistung verbessert, während ihre Kombination konsistent die Leistung steigert. Dies deutet darauf hin, dass die beiden Mechanismen komplementäre Rollen spielen: Das korrektheitsbewusste Gating unterdrückt unzuverlässige Koordinaten-Token-Überwachung, während die Skalierung der Lehrerwahrscheinlichkeit die Stärke der verbleibenden Signale kalibriert. Experimente über sechs GUI-Grounding-Benchmarks zeigen, dass unsere Methode das Basismodell konsistent verbessert und starke Baselines übertrifft.

English

Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.