GUI-G^2: Моделирование гауссовских наград для привязки к графическому интерфейсу
GUI-G^2: Gaussian Reward Modeling for GUI Grounding
July 21, 2025
Авторы: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Аннотация
Графический интерфейс пользователя (GUI) связывает инструкции на естественном языке с точными локациями интерфейса для автономного взаимодействия. Современные подходы на основе обучения с подкреплением используют бинарные вознаграждения, которые рассматривают элементы как цели типа "попал или промахнулся", создавая разреженные сигналы, игнорирующие непрерывный характер пространственных взаимодействий. Вдохновленные поведением человека при кликах, которое естественным образом формирует гауссовы распределения, центрированные на целевых элементах, мы представляем GUI Gaussian Grounding Rewards (GUI-G^2) — принципиальную систему вознаграждений, моделирующую элементы интерфейса как непрерывные гауссовы распределения на плоскости интерфейса. GUI-G^2 включает два синергетических механизма: гауссовы точечные вознаграждения моделируют точную локализацию через экспоненциально затухающие распределения, центрированные на центроидах элементов, а вознаграждения за покрытие оценивают пространственное выравнивание, измеряя перекрытие между предсказанными гауссовыми распределениями и целевыми областями. Для работы с элементами разного масштаба мы разработали адаптивный механизм дисперсии, который калибрует распределения вознаграждений на основе размеров элементов. Эта система преобразует задачу связывания GUI из разреженной бинарной классификации в плотную непрерывную оптимизацию, где гауссовы распределения генерируют богатые градиентные сигналы, направляющие модели к оптимальным позициям взаимодействия. Экстенсивные эксперименты на бенчмарках ScreenSpot, ScreenSpot-v2 и ScreenSpot-Pro демонстрируют, что GUI-G^2 значительно превосходит современный метод UI-TARS-72B, с наиболее значительным улучшением на 24,7% на ScreenSpot-Pro. Наш анализ показывает, что непрерывное моделирование обеспечивает превосходную устойчивость к вариациям интерфейса и улучшенную обобщаемость на неизвестные макеты, устанавливая новую парадигму для пространственного мышления в задачах взаимодействия с GUI.
English
Graphical User Interface (GUI) grounding maps natural language instructions
to precise interface locations for autonomous interaction. Current
reinforcement learning approaches use binary rewards that treat elements as
hit-or-miss targets, creating sparse signals that ignore the continuous nature
of spatial interactions. Motivated by human clicking behavior that naturally
forms Gaussian distributions centered on target elements, we introduce GUI
Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that
models GUI elements as continuous Gaussian distributions across the interface
plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point
rewards model precise localization through exponentially decaying distributions
centered on element centroids, while coverage rewards assess spatial alignment
by measuring the overlap between predicted Gaussian distributions and target
regions. To handle diverse element scales, we develop an adaptive variance
mechanism that calibrates reward distributions based on element dimensions.
This framework transforms GUI grounding from sparse binary classification to
dense continuous optimization, where Gaussian distributions generate rich
gradient signals that guide models toward optimal interaction positions.
Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro
benchmarks demonstrate that GUI-G^2, substantially outperforms
state-of-the-art method UI-TARS-72B, with the most significant improvement of
24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides
superior robustness to interface variations and enhanced generalization to
unseen layouts, establishing a new paradigm for spatial reasoning in GUI
interaction tasks.