UI-Zoomer: Адаптивное приближение интерфейса на основе неопределенности для задач граундинга GUI

Аннотация

Граундинг графического интерфейса (GUI), заключающийся в локализации элементов интерфейса по скриншотам на основе текстовых запросов, остается сложной задачей для мелких иконок и плотных макетов. Методы увеличения на этапе тестирования улучшают локализацию за счет обрезки и повторного вывода в более высоком разрешении, но применяют обрезку единообразно ко всем экземплярам с фиксированными размерами областей, игнорируя факт наличия неопределенности модели в каждом конкретном случае. Мы предлагаем UI-Zoomer, беcтренинговую адаптивную систему увеличения, которая рассматривает как условие, так и масштаб увеличения как задачу количественной оценки неопределенности прогноза. Уверенность-чувствительный механизм объединяет пространственный консенсус среди стохастических кандидатов с уверенностью генерации на уровне токенов для выборочного запуска увеличения только в случаях неопределенной локализации. При срабатывании модуль определения размера области обрезки на основе неопределенности декомпозирует дисперсию прогноза на межвыборочное позиционное разброс и внутривыборочный разброс границ, выводя индивидуальный радиус обрезки для каждого экземпляра с помощью формулы полной дисперсии. Экстенсивные эксперименты на наборах данных ScreenSpot-Pro, UI-Vision и ScreenSpot-v2 демонстрируют стабильное улучшение по сравнению с сильными базовыми методами для различных архитектур моделей, достигая прироста в +13,4%, +10,3% и +4,2% соответственно, без необходимости дополнительного обучения.

English

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose UI-Zoomer, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

UI-Zoomer: Адаптивное приближение интерфейса на основе неопределенности для задач граундинга GUI

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Аннотация

Support