Faire confiance au bon enseignant : Auto-distillation sensible à la qualité pour l'ancrage d'interface graphique

Résumé

L'ancrage d'interface graphique (GUI grounding) nécessite que les modèles vision-langage (VLM) identifient de petits éléments cibles dans des captures d'écran haute résolution et prédisent des coordonnées précises à l'écran. L'auto-distillation sur politique (OPSD) est une approche prometteuse de post-entraînement pour cette tâche sensible aux coordonnées, car elle fournit des signaux d'enseignant denses au niveau des jetons, au-delà des simples étiquettes de coordonnées binaires. Cependant, l'OPSD naïve n'est pas bien adaptée à l'ancrage d'interface graphique : elle évalue l'enseignant sur des préfixes générés par l'étudiant, et la qualité des signaux d'enseignant liés aux jetons de coordonnées peut se dégrader lorsque le préfixe s'est déjà écarté de la coordonnée cible, conduisant à des signaux d'enseignant peu fiables. Pour atténuer ce problème, nous proposons une auto-distillation sensible à la qualité pour l'ancrage d'interface graphique basé sur VLM, qui améliore la qualité des signaux d'enseignant des jetons de coordonnées grâce à un filtrage doux basé sur l'exactitude et une mise à l'échelle des probabilités de l'enseignant. Le filtrage doux basé sur l'exactitude vérifie si la prédiction actuelle de l'enseignant pour le jeton de coordonnées peut encore être complétée en la boîte de vérité terrain sous le préfixe généré par l'étudiant. Dans le cas contraire, le signal d'enseignant correspondant est pondéré à la baisse. La mise à l'échelle des probabilités de l'enseignant utilise ensuite la confiance de l'enseignant comme facteur léger pour calibrer davantage la force de la supervision filtrée. Un constat empirique clé est qu'aucun des deux composants pris isolément n'améliore les performances globales, tandis que leur combinaison les améliore systématiquement. Cela suggère que les deux mécanismes jouent des rôles complémentaires : le filtrage basé sur l'exactitude supprime la supervision peu fiable des jetons de coordonnées, tandis que la mise à l'échelle des probabilités de l'enseignant calibre la force des signaux restants. Des expériences sur six bases de référence d'ancrage d'interface graphique montrent que notre méthode améliore systématiquement le modèle de base et surpasse les références fortes.

English

Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.