ChatPaper.aiChatPaper

Améliorer l'ancrage des interfaces graphiques grâce à une cartographie explicite des positions aux coordonnées

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

October 3, 2025
papers.authors: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI

papers.abstract

L'ancrage d'interface graphique (GUI grounding), la tâche consistant à mapper des instructions en langage naturel vers des coordonnées en pixels, est cruciale pour les agents autonomes, mais reste difficile pour les modèles de langage visuel (VLMs) actuels. Le principal goulot d'étranglement est la cartographie fiable de patchs à pixels, qui échoue lors de l'extrapolation à des affichages haute résolution non vus pendant l'entraînement. Les approches actuelles génèrent les coordonnées sous forme de tokens textuels directement à partir des caractéristiques visuelles, forçant le modèle à inférer implicitement des mappings complexes de position à pixels ; par conséquent, la précision se dégrade et les échecs se multiplient sur de nouvelles résolutions. Nous abordons ce problème avec deux innovations complémentaires. Premièrement, les tokens RULER servent de marqueurs de coordonnées explicites, permettant au modèle de référencer des positions de manière similaire à des lignes de grille sur une carte et d'ajuster plutôt que de générer des coordonnées à partir de zéro. Deuxièmement, l'Interleaved MRoPE (I-MRoPE) améliore l'encodage spatial en garantissant que les dimensions de largeur et de hauteur sont représentées de manière égale, corrigeant l'asymétrie des schémas positionnels standards. Les expériences sur ScreenSpot, ScreenSpot-V2 et ScreenSpot-Pro montrent des gains constants en précision d'ancrage, avec les améliorations les plus significatives sur les interfaces haute résolution. En fournissant un guidage spatial explicite plutôt que de s'appuyer sur un apprentissage implicite, notre approche permet une automatisation d'interface graphique plus fiable à travers diverses résolutions et plateformes.
English
GUI grounding, the task of mapping natural-language instructions to pixel coordinates, is crucial for autonomous agents, yet remains difficult for current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which breaks when extrapolating to high-resolution displays unseen during training. Current approaches generate coordinates as text tokens directly from visual features, forcing the model to infer complex position-to-pixel mappings implicitly; as a result, accuracy degrades and failures proliferate on new resolutions. We address this with two complementary innovations. First, RULER tokens serve as explicit coordinate markers, letting the model reference positions similar to gridlines on a map and adjust rather than generate coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial encoding by ensuring that width and height dimensions are represented equally, addressing the asymmetry of standard positional schemes. Experiments on ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in grounding accuracy, with the largest improvements on high-resolution interfaces. By providing explicit spatial guidance rather than relying on implicit learning, our approach enables more reliable GUI automation across diverse resolutions and platforms.
PDF32October 6, 2025