Vertrouw de juiste leraar: Kwaliteitsbewuste zelfdestillatie voor GUI-verankering

Samenvatting

GUI-grounding vereist dat visie-taalmodellen (VTM's) kleine doelelementen in hoge-resolutie schermafbeeldingen identificeren en precieze schermcoördinaten voorspellen. On-policy zelfdistillatie (OPSD) is een veelbelovende post-training aanpak voor deze coördinaatgevoelige taak, aangezien het dichte token-niveau teacher-signalen biedt die verder gaan dan harde coördinaatlabels. Echter, naïeve OPSD is niet goed geschikt voor GUI-grounding: OPSD evalueert de teacher op door student gegenereerde prefixen, waardoor de kwaliteit van coördinaat-token teacher-signalen kan afnemen wanneer het prefix al is afgeweken van de doelcoördinaat, wat leidt tot onbetrouwbare teacher-signalen. Om dit te mitigeren, stellen we kwaliteitsbewuste zelfdistillatie voor voor VLM-gebaseerde GUI-grounding, die de kwaliteit van coördinaat-token teacher-signalen verbetert door middel van zachte correctheidsbewuste gating en teacher-waarschijnlijkheidsschaling. De zachte correctheidsbewuste gate controleert of de huidige coördinaat-token voorspelling van de teacher nog kan worden gecompleteerd tot de ground-truth box onder het door student gegenereerde prefix. Zo niet, dan wordt het corresponderende teacher-signaal omlaag gewogen. Teacher-waarschijnlijkheidsschaling gebruikt vervolgens het vertrouwen van de teacher als een lichtgewicht factor om de sterkte van de gegate supervisie verder te kalibreren. Een belangrijke empirische bevinding is dat geen van beide componenten afzonderlijk de algehele prestatie verbetert, terwijl combinatie ervan de prestatie consistent verbetert. Dit suggereert dat de twee mechanismen complementaire rollen spelen: correctheidsbewuste gating onderdrukt onbetrouwbare coördinaat-token supervisie, terwijl teacher-waarschijnlijkheidsschaling de sterkte van de resterende signalen kalibreert. Experimenten over zes GUI-grounding benchmarks tonen aan dat onze methode het basismodel consistent verbetert en sterke basislijnen overtreft.

English

Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.