PAGER: Het overbruggen van de kloof tussen semantiek en uitvoering in puntprecieze geometrische GUI-besturing

Samenvatting

Grote visie-taalmodellen hebben GUI-agenten aanzienlijk verbeterd, waardoor uitvoerbare interactie via web-, mobiele en desktop-omgevingen mogelijk is. Toch zijn deze winsten grotendeels gebaseerd op een tolerant regio-paradigma, waarin veel naburige pixels binnen hetzelfde onderdeel geldig blijven. Nauwkeurige geometrische constructie doorbreekt deze aanname: handelingen moeten op punten in een continue canvasruimte landen in plaats van op tolerante regio's. Omdat geometrische primitieven ontologische afhankelijkheden met zich meebrengen, kan een lokale coördinatenfout cascaderende topologische storingen veroorzaken die downstream-objecten vervormen en de uiteindelijke constructie ongeldig maken. We identificeren dit regime als precisiegevoelige GUI-taken, die nauwkeurigheid op puntniveau, geometriebewuste verificatie en robuustheid tegen door afhankelijkheden gedreven foutpropagatie vereisen. Om dit te benchmarken introduceren we PAGE Bench, met 4.906 problemen en meer dan 224K proces-gesuperviseerde, pixel-niveau GUI-acties. Verder stellen we PAGER voor, een topologiebewuste agent die constructie ontleedt in afhankelijkheidsgestructureerde planning en uitvoering op pixelniveau. Pixel-grondige gesuperviseerde afstemming vestigt een uitvoerbare actiegrammatica, terwijl precisie-uitgelijnde reinforcement learning de door rollouts veroorzaakte exposure bias vermindert via toestandsafhankelijke geometrische feedback. Experimenten onthullen een duidelijke Semantisch-Executiekloof: algemene multimodale modellen kunnen meer dan 88% actietype-nauwkeurigheid behalen, maar blijven onder 6% taaksucces. PAGER overbrugt deze kloof en levert een 4,1x hoger taaksucces dan de sterkste geëvalueerde algemene basislijn, en verhoogt de stapsuccesratio van onder 9% voor GUI-gespecialiseerde agenten naar meer dan 62%, waarmee een nieuwe state-of-the-art voor puntprecieze GUI-controle wordt gevestigd.

English

Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.