Verbetering van GUI-gronding met expliciete positie-naar-coördinaat-mapping
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
October 3, 2025
Auteurs: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI
Samenvatting
GUI-gronding, de taak om natuurlijke-taal instructies te koppelen aan pixelcoördinaten, is cruciaal voor autonome agents, maar blijft moeilijk voor huidige VLMs. De belangrijkste bottleneck is de betrouwbare mapping van patches naar pixels, die faalt bij extrapolatie naar hoge-resolutie schermen die niet tijdens de training zijn gezien. Huidige benaderingen genereren coördinaten direct als teksttokens vanuit visuele kenmerken, waardoor het model complexe positie-naar-pixel mappings impliciet moet afleiden; als gevolg daarvan neemt de nauwkeurigheid af en nemen fouten toe bij nieuwe resoluties. Wij pakken dit aan met twee complementaire innovaties. Ten eerste dienen RULER-tokens als expliciete coördinaatmarkeringen, waardoor het model posities kan refereren zoals rasterlijnen op een kaart en coördinaten kan aanpassen in plaats van ze vanaf nul te genereren. Ten tweede verbetert Interleaved MRoPE (I-MRoPE) de ruimtelijke codering door ervoor te zorgen dat de breedte- en hoogtedimensies gelijk worden weergegeven, wat de asymmetrie van standaard positionele schema's aanpakt. Experimenten op ScreenSpot, ScreenSpot-V2 en ScreenSpot-Pro laten consistente verbeteringen zien in grondingsnauwkeurigheid, met de grootste vooruitgang op interfaces met hoge resolutie. Door expliciete ruimtelijke begeleiding te bieden in plaats van te vertrouwen op impliciet leren, maakt onze aanpak betrouwbaardere GUI-automatisering mogelijk over diverse resoluties en platforms.
English
GUI grounding, the task of mapping natural-language instructions to pixel
coordinates, is crucial for autonomous agents, yet remains difficult for
current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which
breaks when extrapolating to high-resolution displays unseen during training.
Current approaches generate coordinates as text tokens directly from visual
features, forcing the model to infer complex position-to-pixel mappings
implicitly; as a result, accuracy degrades and failures proliferate on new
resolutions. We address this with two complementary innovations. First, RULER
tokens serve as explicit coordinate markers, letting the model reference
positions similar to gridlines on a map and adjust rather than generate
coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial
encoding by ensuring that width and height dimensions are represented equally,
addressing the asymmetry of standard positional schemes. Experiments on
ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in
grounding accuracy, with the largest improvements on high-resolution
interfaces. By providing explicit spatial guidance rather than relying on
implicit learning, our approach enables more reliable GUI automation across
diverse resolutions and platforms.