Доверяйте правильному учителю: самодистилляция с учетом качества для привязки к элементам графического интерфейса

Аннотация

Привязка графического пользовательского интерфейса (GUI) требует от моделей «язык-зрение» (VLM) идентифицировать мелкие целевые элементы на снимках экрана высокого разрешения и предсказывать точные экранные координаты. Одно-политическая самодистилляция (OPSD) является перспективным методом пост-обучения для этой чувствительной к координатам задачи, поскольку она предоставляет плотные учительские сигналы на уровне токенов, выходящие за рамки жестких меток координат. Однако наивная OPSD плохо подходит для привязки GUI: OPSD оценивает учителя на сгенерированных студентом префиксах, и качество учительских сигналов токенов координат может ухудшаться, когда префикс уже отклонился от целевой координаты, что приводит к ненадежному учительскому сигналу. Чтобы смягчить это, мы предлагаем самодистилляцию с учетом качества для привязки GUI на основе VLM, которая улучшает качество учительских сигналов токенов координат с помощью мягкого стробирования с учетом правильности и масштабирования вероятности учителя. Мягкий стробирующий элемент с учетом правильности проверяет, может ли текущее предсказание учителя для токена координат быть завершено до истинного прямоугольника (ground-truth box) при сгенерированном студентом префиксе. Если нет, соответствующий учительский сигнал понижается. Затем масштабирование вероятности учителя использует уверенность учителя как легковесный фактор для дальнейшей калибровки силы стробированного контроля. Ключевой эмпирический вывод состоит в том, что ни один из компонентов по отдельности не улучшает общую производительность, тогда как их объединение последовательно улучшает производительность. Это предполагает, что два механизма играют взаимодополняющие роли: стробирование с учетом правильности подавляет ненадежный контроль токенов координат, в то время как масштабирование вероятности учителя калибрует силу оставшихся сигналов. Эксперименты на шести эталонных наборах данных по привязке GUI показывают, что наш метод последовательно улучшает базовую модель и превосходит сильные базовые линии.

English

Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.