UI-Zoomer: Onzekerheidsgedreven Adaptief Inzoomen voor GUI-gronding

Samenvatting

GUI-gronding, het lokaliseren van interface-elementen uit schermafbeeldingen op basis van natuurlijke-taaluitdrukkingen, blijft een uitdaging voor kleine pictogrammen en dichte lay-outs. Testtijd-zoommethoden verbeteren de lokalisatie door bijsnijden en herhaalde inferentie op hogere resolutie, maar passen bijsnijden uniform toe op alle instanties met vaste afmetingen, zonder rekening te houden met de onzekerheid van het model per geval. Wij stellen UI-Zoomer voor, een trainingsvrij adaptief zoom-in raamwerk dat zowel de trigger als de schaal van het inzoomen behandelt als een probleem van kwantificering van voorspellingsonzekerheid. Een vertrouwensbewuste poort fuseert ruimtelijke consensus tussen stochastische kandidaten met token-niveau generatievertrouwen om selectief inzoomen alleen te triggeren wanneer lokalisatie onzeker is. Wanneer getriggerd, decomposeert een onzekerheidsgedreven bijsnijdmodule de voorspellingsvariantie in inter-sample positieverspreiding en intra-sample boundingbox-omvang, en leidt een per-instantie bijsnijstraal af via de wet van de totale variantie. Uitgebreide experimenten op ScreenSpot-Pro, UI-Vision en ScreenSpot-v2 tonen consistente verbeteringen ten opzichte van sterke basislijnen over meerdere modelarchitecturen, met winsten tot respectievelijk +13,4%, +10,3% en +4,2%, zonder extra training vereist.

English

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

UI-Zoomer: Onzekerheidsgedreven Adaptief Inzoomen voor GUI-gronding

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Samenvatting

Support