ChatPaper.aiChatPaper

Migliorare il grounding delle GUI con mappatura esplicita da posizione a coordinate

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

October 3, 2025
Autori: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI

Abstract

Il grounding delle GUI, il compito di mappare istruzioni in linguaggio naturale a coordinate di pixel, è cruciale per agenti autonomi, ma rimane difficile per gli attuali VLMs. Il collo di bottiglia principale è la mappatura affidabile da patch a pixel, che si interrompe quando si estrapola a display ad alta risoluzione non visti durante l'addestramento. Gli approcci attuali generano coordinate come token di testo direttamente dalle caratteristiche visive, costringendo il modello a inferire implicitamente complesse mappature da posizione a pixel; di conseguenza, l'accuratezza si riduce e i fallimenti si moltiplicano su nuove risoluzioni. Affrontiamo questo problema con due innovazioni complementari. Innanzitutto, i token RULER fungono da marcatori espliciti di coordinate, permettendo al modello di fare riferimento a posizioni simili a linee di griglia su una mappa e di aggiustare piuttosto che generare coordinate da zero. In secondo luogo, l'Interleaved MRoPE (I-MRoPE) migliora la codifica spaziale assicurando che le dimensioni di larghezza e altezza siano rappresentate in modo equo, affrontando l'asimmetria degli schemi posizionali standard. Esperimenti su ScreenSpot, ScreenSpot-V2 e ScreenSpot-Pro mostrano guadagni consistenti nell'accuratezza del grounding, con i miglioramenti più significativi su interfacce ad alta risoluzione. Fornendo una guida spaziale esplicita piuttosto che affidarsi all'apprendimento implicito, il nostro approccio consente un'automazione delle GUI più affidabile su diverse risoluzioni e piattaforme.
English
GUI grounding, the task of mapping natural-language instructions to pixel coordinates, is crucial for autonomous agents, yet remains difficult for current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which breaks when extrapolating to high-resolution displays unseen during training. Current approaches generate coordinates as text tokens directly from visual features, forcing the model to infer complex position-to-pixel mappings implicitly; as a result, accuracy degrades and failures proliferate on new resolutions. We address this with two complementary innovations. First, RULER tokens serve as explicit coordinate markers, letting the model reference positions similar to gridlines on a map and adjust rather than generate coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial encoding by ensuring that width and height dimensions are represented equally, addressing the asymmetry of standard positional schemes. Experiments on ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in grounding accuracy, with the largest improvements on high-resolution interfaces. By providing explicit spatial guidance rather than relying on implicit learning, our approach enables more reliable GUI automation across diverse resolutions and platforms.
PDF32October 6, 2025