Mejora de la Fundamentación de GUI con Mapeo Explícito de Posición a Coordenadas
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
October 3, 2025
Autores: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI
Resumen
La fundamentación de GUI, la tarea de mapear instrucciones en lenguaje natural a coordenadas de píxeles, es crucial para agentes autónomos, pero sigue siendo difícil para los modelos de lenguaje visual (VLMs) actuales. El principal cuello de botella es el mapeo confiable de parches a píxeles, que falla al extrapolar a pantallas de alta resolución no vistas durante el entrenamiento. Los enfoques actuales generan coordenadas como tokens de texto directamente a partir de características visuales, forzando al modelo a inferir mapeos complejos de posición a píxeles de manera implícita; como resultado, la precisión disminuye y los errores proliferan en nuevas resoluciones. Abordamos esto con dos innovaciones complementarias. Primero, los tokens RULER sirven como marcadores explícitos de coordenadas, permitiendo que el modelo haga referencia a posiciones de manera similar a las líneas de una cuadrícula en un mapa y ajuste en lugar de generar coordenadas desde cero. Segundo, Interleaved MRoPE (I-MRoPE) mejora la codificación espacial al asegurar que las dimensiones de ancho y alto se representen por igual, abordando la asimetría de los esquemas posicionales estándar. Los experimentos en ScreenSpot, ScreenSpot-V2 y ScreenSpot-Pro muestran mejoras consistentes en la precisión de fundamentación, con los mayores avances en interfaces de alta resolución. Al proporcionar guía espacial explícita en lugar de depender del aprendizaje implícito, nuestro enfoque permite una automatización de GUI más confiable en diversas resoluciones y plataformas.
English
GUI grounding, the task of mapping natural-language instructions to pixel
coordinates, is crucial for autonomous agents, yet remains difficult for
current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which
breaks when extrapolating to high-resolution displays unseen during training.
Current approaches generate coordinates as text tokens directly from visual
features, forcing the model to infer complex position-to-pixel mappings
implicitly; as a result, accuracy degrades and failures proliferate on new
resolutions. We address this with two complementary innovations. First, RULER
tokens serve as explicit coordinate markers, letting the model reference
positions similar to gridlines on a map and adjust rather than generate
coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial
encoding by ensuring that width and height dimensions are represented equally,
addressing the asymmetry of standard positional schemes. Experiments on
ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in
grounding accuracy, with the largest improvements on high-resolution
interfaces. By providing explicit spatial guidance rather than relying on
implicit learning, our approach enables more reliable GUI automation across
diverse resolutions and platforms.