Улучшение заземления графического интерфейса с помощью явного отображения позиций в координаты
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
October 3, 2025
Авторы: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI
Аннотация
Привязка к графическому интерфейсу пользователя (GUI grounding) — задача сопоставления инструкций на естественном языке с координатами пикселей — имеет ключевое значение для автономных агентов, однако остается сложной для современных моделей визуального языка (VLMs). Основное узкое место — это надежное отображение патчей на пиксели, которое нарушается при экстраполяции на дисплеи с высоким разрешением, не встречавшиеся во время обучения. Современные подходы генерируют координаты в виде текстовых токенов непосредственно из визуальных признаков, вынуждая модель неявно выводить сложные соответствия между позициями и пикселями; в результате точность снижается, а ошибки множатся на новых разрешениях. Мы решаем эту проблему с помощью двух взаимодополняющих инноваций. Во-первых, токены RULER служат явными маркерами координат, позволяя модели ссылаться на позиции, подобно линиям сетки на карте, и корректировать, а не генерировать координаты с нуля. Во-вторых, чередующаяся MRoPE (I-MRoPE) улучшает пространственное кодирование, обеспечивая равное представление измерений ширины и высоты, что устраняет асимметрию стандартных позиционных схем. Эксперименты на наборах данных ScreenSpot, ScreenSpot-V2 и ScreenSpot-Pro демонстрируют стабильное повышение точности привязки, с наибольшими улучшениями на интерфейсах с высоким разрешением. Предоставляя явное пространственное руководство вместо опоры на неявное обучение, наш подход обеспечивает более надежную автоматизацию GUI на различных разрешениях и платформах.
English
GUI grounding, the task of mapping natural-language instructions to pixel
coordinates, is crucial for autonomous agents, yet remains difficult for
current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which
breaks when extrapolating to high-resolution displays unseen during training.
Current approaches generate coordinates as text tokens directly from visual
features, forcing the model to infer complex position-to-pixel mappings
implicitly; as a result, accuracy degrades and failures proliferate on new
resolutions. We address this with two complementary innovations. First, RULER
tokens serve as explicit coordinate markers, letting the model reference
positions similar to gridlines on a map and adjust rather than generate
coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial
encoding by ensuring that width and height dimensions are represented equally,
addressing the asymmetry of standard positional schemes. Experiments on
ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in
grounding accuracy, with the largest improvements on high-resolution
interfaces. By providing explicit spatial guidance rather than relying on
implicit learning, our approach enables more reliable GUI automation across
diverse resolutions and platforms.