Confía en el maestro correcto: autodestilación consciente de la calidad para el anclaje en GUI

Resumen

El anclaje de interfaces gráficas de usuario (GUI) requiere que los modelos de visión y lenguaje (VLM) identifiquen pequeños elementos objetivo en capturas de pantalla de alta resolución y predigan coordenadas precisas de la pantalla. La autodestilación en política (OPSD) es un enfoque prometedor de post-entrenamiento para esta tarea sensible a coordenadas, ya que proporciona señales densas del profesor a nivel de token más allá de las etiquetas de coordenadas duras. Sin embargo, la OPSD ingenua no es adecuada para el anclaje de GUI: la OPSD evalúa al profesor en prefijos generados por el estudiante; la calidad de las señales del profesor para los tokens de coordenadas puede degradarse cuando el prefijo ya se ha desviado de la coordenada objetivo, lo que lleva a una señal del profesor poco fiable. Para mitigar esto, proponemos la autodestilación consciente de la calidad para el anclaje de GUI basado en VLM, que mejora la calidad de la señal del profesor para los tokens de coordenadas mediante un control suave consciente de la corrección y un escalado de la probabilidad del profesor. El control suave consciente de la corrección verifica si la predicción actual del profesor para el token de coordenadas aún puede completarse para formar la caja de verdad fundamental bajo el prefijo generado por el estudiante. Si no es así, la señal correspondiente del profesor se reduce. El escalado de la probabilidad del profesor utiliza entonces la confianza del profesor como un factor ligero para calibrar aún más la fuerza de la supervisión controlada. Un hallazgo empírico clave es que ninguno de los componentes por sí solo mejora el rendimiento general, mientras que combinarlos lo mejora consistentemente. Esto sugiere que los dos mecanismos desempeñan roles complementarios: el control consciente de la corrección suprime la supervisión no fiable de los tokens de coordenadas, mientras que el escalado de la probabilidad del profesor calibra la fuerza de las señales restantes. Los experimentos en seis puntos de referencia de anclaje de GUI muestran que nuestro método mejora consistentemente el modelo base y supera a las líneas base sólidas.

English

Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.