Confie no Professor Certo: Autodestilação Ciente da Qualidade para Fundamentação de GUI

Resumo

O ancoramento de interface gráfica do usuário (GUI) requer que modelos de visão-linguagem (VLMs) identifiquem pequenos elementos-alvo em capturas de tela de alta resolução e prevejam coordenadas precisas da tela. A autodestilação on-policy (OPSD) é uma abordagem promissora de pós-treinamento para essa tarefa sensível a coordenadas, pois fornece sinais densos do professor em nível de token além de rótulos de coordenadas rígidos. No entanto, a OPSD ingênua não é bem adequada para o ancoramento de GUI: a OPSD avalia o professor em prefixos gerados pelo aluno; a qualidade dos sinais do professor para tokens de coordenada pode degradar quando o prefixo já se desviou da coordenada alvo, levando a um sinal do professor não confiável. Para mitigar isso, propomos uma autodestilação consciente da qualidade para ancoramento de GUI baseado em VLM, que melhora a qualidade do sinal do professor para tokens de coordenada por meio de uma portagem suave consciente da correção e escalonamento da probabilidade do professor. A portagem suave consciente da correção verifica se a previsão atual do professor para o token de coordenada ainda pode ser completada na caixa verdade (ground-truth) sob o prefixo gerado pelo aluno. Caso contrário, o sinal correspondente do professor é reduzido. O escalonamento da probabilidade do professor então usa a confiança do professor como um fator leve para calibrar ainda mais a força da supervisão portada. Uma descoberta empírica chave é que nenhum componente sozinho melhora o desempenho geral, enquanto a combinação deles melhora consistentemente o desempenho. Isso sugere que os dois mecanismos desempenham papéis complementares: a portagem consciente da correção suprime a supervisão não confiável de tokens de coordenada, enquanto o escalonamento da probabilidade do professor calibra a força dos sinais restantes. Experimentos em seis benchmarks de ancoramento de GUI mostram que nosso método melhora consistentemente o modelo base e supera linhas de base fortes.

English

Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.