ChatPaper.aiChatPaper

UI-Zoomer: GUIグラウンデングのための不確実性駆動型適応ズームイン

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

April 15, 2026
著者: Fei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

要旨

GUIグラウンディングは、自然言語クエリを与えられたスクリーンショットからインターフェース要素を位置特定する技術であるが、小さなアイコンや高密度なレイアウトでは依然として課題が多い。テスト時のズームイン手法は、領域を切り出して高解像度で再推論を行うことで位置特定精度を向上させるが、固定サイズのクロップを全てのインスタンスに一律に適用するため、モデルが個々のケースで実際に不確実性を抱えているかどうかを考慮しない。本研究では、ズームインのトリガーとスケールの両方を予測不確実性の定量化問題として扱う、訓練不要の適応的ズームインフレームワーク「UI-Zoomer」を提案する。信頼度感知ゲートは、確率的候補間の空間的合意とトークンレベルの生成信頼度を統合し、位置特定が不確実な場合にのみ選択的にズームインをトリガーする。トリガー時には、不確実性駆動型クロップサイズ決定モジュールが予測分散をサンプル間の位置広がりとサンプル内のバウンディングボックス範囲に分解し、全分散の法則を通じてインスタンスごとのクロップ半径を導出する。ScreenSpot-Pro、UI-Vision、ScreenSpot-v2を用いた大規模実験により、複数のモデルアーキテクチャにわたって強力なベースラインを一貫して上回り、それぞれ最大+13.4%、+10.3%、+4.2%の精度向上を達成した。追加の訓練は一切必要としない。
English
GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.
PDF90April 17, 2026