Melhorando o Aterramento de GUI com Mapeamento Explícito de Posição para Coordenadas
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
October 3, 2025
Autores: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI
Resumo
A fundamentação de GUI, a tarefa de mapear instruções em linguagem natural para coordenadas de pixels, é crucial para agentes autônomos, mas ainda é desafiadora para os modelos de linguagem visual (VLMs) atuais. O principal gargalo é o mapeamento confiável de patches para pixels, que falha ao extrapolar para telas de alta resolução não vistas durante o treinamento. As abordagens atuais geram coordenadas como tokens de texto diretamente a partir de características visuais, forçando o modelo a inferir implicitamente mapeamentos complexos de posição para pixels; como resultado, a precisão diminui e as falhas se multiplicam em novas resoluções. Abordamos isso com duas inovações complementares. Primeiro, os tokens RULER servem como marcadores explícitos de coordenadas, permitindo que o modelo referencie posições de forma semelhante a linhas de grade em um mapa e ajuste, em vez de gerar coordenadas do zero. Segundo, o Interleaved MRoPE (I-MRoPE) melhora a codificação espacial ao garantir que as dimensões de largura e altura sejam representadas igualmente, abordando a assimetria dos esquemas posicionais padrão. Experimentos no ScreenSpot, ScreenSpot-V2 e ScreenSpot-Pro mostram ganhos consistentes na precisão de fundamentação, com as maiores melhorias em interfaces de alta resolução. Ao fornecer orientação espacial explícita em vez de depender de aprendizado implícito, nossa abordagem permite uma automação de GUI mais confiável em diversas resoluções e plataformas.
English
GUI grounding, the task of mapping natural-language instructions to pixel
coordinates, is crucial for autonomous agents, yet remains difficult for
current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which
breaks when extrapolating to high-resolution displays unseen during training.
Current approaches generate coordinates as text tokens directly from visual
features, forcing the model to infer complex position-to-pixel mappings
implicitly; as a result, accuracy degrades and failures proliferate on new
resolutions. We address this with two complementary innovations. First, RULER
tokens serve as explicit coordinate markers, letting the model reference
positions similar to gridlines on a map and adjust rather than generate
coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial
encoding by ensuring that width and height dimensions are represented equally,
addressing the asymmetry of standard positional schemes. Experiments on
ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in
grounding accuracy, with the largest improvements on high-resolution
interfaces. By providing explicit spatial guidance rather than relying on
implicit learning, our approach enables more reliable GUI automation across
diverse resolutions and platforms.