Verbesserung der GUI-Verankerung durch explizite Position-zu-Koordinaten-Zuordnung
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
October 3, 2025
papers.authors: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI
papers.abstract
GUI-Grounding, die Aufgabe, natürliche Sprachbefehle auf Pixelkoordinaten abzubilden, ist entscheidend für autonome Agenten, bleibt jedoch für aktuelle Vision-Language-Modelle (VLMs) eine Herausforderung. Der zentrale Engpass ist die zuverlässige Abbildung von Bildausschnitten auf Pixel, die bei der Extrapolation auf hochauflösende Displays, die während des Trainings nicht gesehen wurden, versagt. Aktuelle Ansätze generieren Koordinaten direkt als Text-Token aus visuellen Merkmalen, wodurch das Modell gezwungen wird, komplexe Position-zu-Pixel-Abbildungen implizit zu inferieren; infolgedessen nimmt die Genauigkeit ab und Fehler häufen sich bei neuen Auflösungen. Wir adressieren dies mit zwei komplementären Innovationen. Erstens dienen RULER-Token als explizite Koordinatenmarker, die es dem Modell ermöglichen, Positionen ähnlich wie Gitternetzlinien auf einer Karte zu referenzieren und Koordinaten anzupassen, anstatt sie von Grund auf zu generieren. Zweitens verbessert Interleaved MRoPE (I-MRoPE) die räumliche Kodierung, indem sichergestellt wird, dass Breiten- und Höhendimensionen gleichberechtigt repräsentiert werden, was die Asymmetrie standardmäßiger Positionsschemata behebt. Experimente auf ScreenSpot, ScreenSpot-V2 und ScreenSpot-Pro zeigen konsistente Verbesserungen in der Grounding-Genauigkeit, mit den größten Fortschritten bei hochauflösenden Benutzeroberflächen. Indem wir explizite räumliche Anleitung bieten, anstatt uns auf implizites Lernen zu verlassen, ermöglicht unser Ansatz zuverlässigere GUI-Automatisierung über verschiedene Auflösungen und Plattformen hinweg.
English
GUI grounding, the task of mapping natural-language instructions to pixel
coordinates, is crucial for autonomous agents, yet remains difficult for
current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which
breaks when extrapolating to high-resolution displays unseen during training.
Current approaches generate coordinates as text tokens directly from visual
features, forcing the model to infer complex position-to-pixel mappings
implicitly; as a result, accuracy degrades and failures proliferate on new
resolutions. We address this with two complementary innovations. First, RULER
tokens serve as explicit coordinate markers, letting the model reference
positions similar to gridlines on a map and adjust rather than generate
coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial
encoding by ensuring that width and height dimensions are represented equally,
addressing the asymmetry of standard positional schemes. Experiments on
ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in
grounding accuracy, with the largest improvements on high-resolution
interfaces. By providing explicit spatial guidance rather than relying on
implicit learning, our approach enables more reliable GUI automation across
diverse resolutions and platforms.