UI-Zoomer: Zoom Adattativo Guidato dall'Incertezza per il Grounding delle GUI

Abstract

La localizzazione di interfacce grafiche (GUI grounding), che individua gli elementi dell'interfaccia da screenshot in base a query in linguaggio naturale, rimane una sfida per le icone di piccole dimensioni e i layout densi. I metodi di zoom al momento del test migliorano la localizzazione ritagliando e rieseguendo l'inferenza a risoluzioni più elevate, ma applicano il ritaglio in modo uniforme a tutte le istanze con dimensioni fisse, ignorando se il modello sia effettivamente incerto caso per caso. Proponiamo UI-Zoomer, un framework adattivo di zoom-in senza necessità di addestramento, che tratta sia l'attivazione che la scala dello zoom come un problema di quantificazione dell'incertezza predittiva. Un gate consapevole della confidenza fonde il consenso spaziale tra candidati stocastici con la confidenza generativa a livello di token per attivare selettivamente lo zoom-in solo quando la localizzazione è incerta. Quando attivato, un modulo di dimensionamento del ritaglio guidato dall'incertezza scompone la varianza predittiva in dispersione posizionale inter-campione ed estensione intra-campione del bounding box, derivando un raggio di ritaglio per istanza tramite la legge della varianza totale. Esperimenti estesi su ScreenSpot-Pro, UI-Vision e ScreenSpot-v2 dimostrano miglioramenti consistenti rispetto a baseline solide su molteplici architetture di modelli, ottenendo guadagni fino a +13,4%, +10,3% e +4,2% rispettivamente, senza alcun addestramento aggiuntivo richiesto.

English

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

UI-Zoomer: Zoom Adattativo Guidato dall'Incertezza per il Grounding delle GUI

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Abstract

Support