UI-Zoomer: Ungewissheitsgesteuertes adaptives Heranzoomen zur GUI-Referenzierung

Zusammenfassung

GUI-Grounding, das Benutzeroberflächenelemente aus Screenshots anhand natürlicher Sprachabfragen lokalisiert, bleibt bei kleinen Symbolen und dichten Layouts eine Herausforderung. Testzeit-Zoom-Methoden verbessern die Lokalisierung durch Zuschneiden und erneutes Inferenzieren in höherer Auflösung, wenden das Zuschneiden jedoch einheitlich mit festen Ausschnittgrößen auf alle Instanzen an, ohne zu berücksichtigen, ob das Modell tatsächlich bei jedem Fall unsicher ist. Wir schlagen UI-Zoomer vor, ein trainingsfreies adaptives Zoom-Framework, das sowohl den Auslöser als auch den Maßstab des Zooms als Problem der Quantifizierung von Vorhersageunsicherheit behandelt. Ein konfidenzgesteuerter Gate-Mechanismus fusioniert räumlichen Konsens zwischen stochastischen Kandidaten mit tokenbasierter Generierungskonfidenz, um Zoomen selektiv nur bei unsicherer Lokalisierung auszulösen. Bei Auslösung zerlegt ein unsicherheitsgesteuertes Zuschnittmodul die Vorhersagevarianz in positionsbezogene Streuung zwischen Stichproben und boxbezogene Ausdehnung innerhalb von Stichproben, wodurch ein instanzspezifischer Zuschnittradius mittels des Gesetzes der totalen Varianz abgeleitet wird. Umfangreiche Experimente auf ScreenSpot-Pro, UI-Vision und ScreenSpot-v2 zeigen konsistente Verbesserungen gegenüber starken Baselines über mehrere Modellarchitekturen hinweg, mit Steigerungen von bis zu +13,4 %, +10,3 % bzw. +4,2 % ohne zusätzliches Training.

English

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

UI-Zoomer: Ungewissheitsgesteuertes adaptives Heranzoomen zur GUI-Referenzierung

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Zusammenfassung

Support