GUI-G^2: Моделирование гауссовских наград для привязки к графическому интерфейсу

Аннотация

Графический интерфейс пользователя (GUI) связывает инструкции на естественном языке с точными локациями интерфейса для автономного взаимодействия. Современные подходы на основе обучения с подкреплением используют бинарные вознаграждения, которые рассматривают элементы как цели типа "попал или промахнулся", создавая разреженные сигналы, игнорирующие непрерывный характер пространственных взаимодействий. Вдохновленные поведением человека при кликах, которое естественным образом формирует гауссовы распределения, центрированные на целевых элементах, мы представляем GUI Gaussian Grounding Rewards (GUI-G^2) — принципиальную систему вознаграждений, моделирующую элементы интерфейса как непрерывные гауссовы распределения на плоскости интерфейса. GUI-G^2 включает два синергетических механизма: гауссовы точечные вознаграждения моделируют точную локализацию через экспоненциально затухающие распределения, центрированные на центроидах элементов, а вознаграждения за покрытие оценивают пространственное выравнивание, измеряя перекрытие между предсказанными гауссовыми распределениями и целевыми областями. Для работы с элементами разного масштаба мы разработали адаптивный механизм дисперсии, который калибрует распределения вознаграждений на основе размеров элементов. Эта система преобразует задачу связывания GUI из разреженной бинарной классификации в плотную непрерывную оптимизацию, где гауссовы распределения генерируют богатые градиентные сигналы, направляющие модели к оптимальным позициям взаимодействия. Экстенсивные эксперименты на бенчмарках ScreenSpot, ScreenSpot-v2 и ScreenSpot-Pro демонстрируют, что GUI-G^2 значительно превосходит современный метод UI-TARS-72B, с наиболее значительным улучшением на 24,7% на ScreenSpot-Pro. Наш анализ показывает, что непрерывное моделирование обеспечивает превосходную устойчивость к вариациям интерфейса и улучшенную обобщаемость на неизвестные макеты, устанавливая новую парадигму для пространственного мышления в задачах взаимодействия с GUI.

English

Graphical User Interface (GUI) grounding maps natural language instructions to precise interface locations for autonomous interaction. Current reinforcement learning approaches use binary rewards that treat elements as hit-or-miss targets, creating sparse signals that ignore the continuous nature of spatial interactions. Motivated by human clicking behavior that naturally forms Gaussian distributions centered on target elements, we introduce GUI Gaussian Grounding Rewards (GUI-G^2), a principled reward framework that models GUI elements as continuous Gaussian distributions across the interface plane. GUI-G^2 incorporates two synergistic mechanisms: Gaussian point rewards model precise localization through exponentially decaying distributions centered on element centroids, while coverage rewards assess spatial alignment by measuring the overlap between predicted Gaussian distributions and target regions. To handle diverse element scales, we develop an adaptive variance mechanism that calibrates reward distributions based on element dimensions. This framework transforms GUI grounding from sparse binary classification to dense continuous optimization, where Gaussian distributions generate rich gradient signals that guide models toward optimal interaction positions. Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro benchmarks demonstrate that GUI-G^2, substantially outperforms state-of-the-art method UI-TARS-72B, with the most significant improvement of 24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides superior robustness to interface variations and enhanced generalization to unseen layouts, establishing a new paradigm for spatial reasoning in GUI interaction tasks.

GUI-G^2: Моделирование гауссовских наград для привязки к графическому интерфейсу

GUI-G^2: Gaussian Reward Modeling for GUI Grounding

Аннотация

Support