UI-Zoomer: Acercamiento Adaptativo Dirigido por Incertidumbre para la Localización de Interfaces Gráficas
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
April 15, 2026
Autores: Fei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Resumen
La localización de elementos de interfaz (GUI grounding), que localiza componentes de interfaces a partir de capturas de pantalla dadas consultas en lenguaje natural, sigue siendo un desafío para iconos pequeños y diseños densos. Los métodos de acercamiento durante la prueba mejoran la localización mediante recorte y nueva inferencia a mayor resolución, pero aplican el recorte uniformemente en todas las instancias con tamaños fijos, ignorando si el modelo realmente presenta incertidumbre en cada caso. Proponemos UI-Zoomer, un marco de acercamiento adaptativo sin entrenamiento que trata tanto el disparador como la escala del acercamiento como un problema de cuantificación de incertidumbre predictiva. Una compuerta consciente de la confianza fusiona el consenso espacial entre candidatos estocásticos con la confianza de generación a nivel de token para activar selectivamente el acercamiento solo cuando la localización es incierta. Al activarse, un módulo de dimensionamiento de recorte impulsado por incertidumbre descompone la varianza predictiva en dispersión posicional inter-muestral y extensión de caja intra-muestral, derivando un radio de recorte por instancia mediante la ley de varianza total. Experimentos exhaustivos en ScreenSpot-Pro, UI-Vision y ScreenSpot-v2 demuestran mejoras consistentes sobre líneas base sólidas en múltiples arquitecturas de modelos, logrando ganancias de hasta +13.4%, +10.3% y +4.2% respectivamente, sin requerir entrenamiento adicional.
English
GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.