UI-Zoomer: Ampliação Adaptativa Orientada por Incerteza para Ancoragem em Interface Gráfica

Resumo

A fundamentação de interface gráfica do utilizador (GUI), que localiza elementos de interface a partir de capturas de ecrã dadas consultas em linguagem natural, continua a ser um desafio para ícones pequenos e layouts densos. Os métodos de ampliação durante o teste melhoram a localização ao recortar e reexecutar a inferência em resolução mais alta, mas aplicam o recorte uniformemente em todas as instâncias com tamanhos de recorte fixos, ignorando se o modelo está realmente incerto em cada caso. Propomos o UI-Zoomer, uma estrutura adaptativa de ampliação sem necessidade de treino que trata tanto o gatilho quanto a escala da ampliação como um problema de quantificação de incerteza preditiva. Um portão consciente da confiança funde o consenso espacial entre candidatos estocásticos com a confiança de geração a nível de token para acionar seletivamente a ampliação apenas quando a localização é incerta. Quando acionado, um módulo de dimensionamento de recorte orientado por incerteza decompõe a variância da previsão em dispersão posicional inter-amostras e extensão de caixa intra-amostra, derivando um raio de recorte por instância através da lei da variância total. Experiências extensivas no ScreenSpot-Pro, UI-Vision e ScreenSpot-v2 demonstram melhorias consistentes sobre bases de comparação fortes em múltiplas arquiteturas de modelo, alcançando ganhos de até +13,4\%, +10,3\% e +4,2\%, respetivamente, sem necessidade de treino adicional.

English

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

UI-Zoomer: Ampliação Adaptativa Orientada por Incerteza para Ancoragem em Interface Gráfica

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Resumo

Support