PAGER: Überbrückung der Kluft zwischen Semantik und Ausführung bei der punktgenauen geometrischen GUI-Steuerung

Zusammenfassung

Große visuell-sprachliche Modelle haben GUI-Agenten erheblich vorangebracht und ermöglichen ausführbare Interaktionen über Web-, Mobil- und Desktop-Oberflächen hinweg. Diese Fortschritte beruhen jedoch weitgehend auf einem nachsichtigen regionentoleranten Paradigma, bei dem viele nahegelegene Pixel innerhalb desselben Bedienelements gültig bleiben. Die präzise geometrische Konstruktion bricht mit dieser Annahme: Aktionen müssen auf Punkte im kontinuierlichen Zeichenbereich treffen, nicht auf tolerante Regionen. Da geometrische Primitive ontologische Abhängigkeiten aufweisen, kann ein lokaler Koordinatenfehler kaskadierende topologische Fehler auslösen, die nachgelagerte Objekte verzerren und die endgültige Konstruktion ungültig machen. Wir bezeichnen dieses Regime als präzisionsempfindliche GUI-Aufgaben, die Genauigkeit auf Punktebene, geometriebewusste Verifikation und Robustheit gegenüber abhängigkeitsgetriebener Fehlerfortpflanzung erfordern. Um dies zu bewerten, führen wir PAGE Bench ein, mit 4.906 Aufgaben und über 224.000 prozessüberwachten GUI-Aktionen auf Pixelebene. Ferner schlagen wir PAGER vor, einen topologiebewussten Agenten, der die Konstruktion in eine abhängigkeitsstrukturierte Planung und eine Ausführung auf Pixelebene zerlegt. Pixelverankertes überwachtes Feintuning etabliert eine ausführbare Aktionsgrammatik, während präzisionsausgerichtetes Reinforcement Learning den durch Rollout induzierten Exposure Bias mittels zustandsbedingten geometrischen Feedbacks abmildert. Experimente offenbaren eine ausgeprägte Semantik-Ausführungs-Lücke: Allgemeine multimodale Modelle erreichen über 88% Genauigkeit beim Aktionstyp, bleiben aber unter 6% Aufgabenerfolg. PAGER schließt diese Lücke, steigert den Aufgabenerfolg um den Faktor 4,1 gegenüber dem stärksten evaluierten allgemeinen Basislinienmodell und erhöht die Schritterfolgsrate von unter 9% bei GUI-spezialisierten Agenten auf über 62%, womit ein neuer Stand der Technik für punktgenaue GUI-Steuerung etabliert wird.

English

Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.