UI-Zoomer : Zoom adaptatif piloté par l'incertitude pour l'ancrage d'interface graphique

Résumé

La localisation d'éléments d'interface graphique (GUI grounding), qui consiste à localiser des éléments d'interface à partir de captures d'écran en réponse à des requêtes en langage naturel, reste difficile pour les petites icônes et les mises en page denses. Les méthodes de zoom au moment du test améliorent la localisation en recadrant et en réexécutant l'inférence à une résolution plus élevée, mais appliquent le recadrage uniformément à toutes les instances avec des tailles fixes, ignorant si le modèle est réellement incertain pour chaque cas. Nous proposons UI-Zoomer, un cadre de zoom adaptatif sans entraînement qui considère à la fois le déclenchement et l'échelle du zoom comme un problème de quantification de l'incertitude prédictive. Une porte de confiance fusionne le consensus spatial parmi des candidats stochastiques avec la confiance de génération au niveau des tokens pour déclencher sélectivement le zoom uniquement lorsque la localisation est incertaine. Lorsqu'il est déclenché, un module de dimensionnement de recadrage piloté par l'incertitude décompose la variance prédictive en dispersion positionnelle inter-échantillon et en étendue de boîte intra-échantillon, dérivant un rayon de recadrage par instance via la loi de la variance totale. Des expériences approfondies sur ScreenSpot-Pro, UI-Vision et ScreenSpot-v2 démontrent des améliorations constantes par rapport aux bases de référence solides sur plusieurs architectures de modèles, atteignant des gains allant jusqu'à +13,4 %, +10,3 % et +4,2 % respectivement, sans entraînement supplémentaire requis.

English

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

UI-Zoomer : Zoom adaptatif piloté par l'incertitude pour l'ancrage d'interface graphique

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Résumé

Support