PAGER : Combler le fossé sémantique-exécution dans le contrôle géométrique précis au point des interfaces graphiques

Résumé

Les grands modèles vision-langage ont considérablement amélioré les agents d'interface graphique (GUI), permettant une interaction exécutable sur les interfaces web, mobiles et de bureau. Cependant, ces progrès reposent largement sur un paradigme tolérant aux régions, où de nombreux pixels voisins à l'intérieur d'un même composant restent valides. La construction géométrique précise remet en cause cette hypothèse : les actions doivent atterrir sur des points dans un espace de canevas continu plutôt que sur des régions tolérantes. Étant donné que les primitives géométriques portent des dépendances ontologiques, une erreur de coordonnées locale peut induire des défaillances topologiques en cascade qui déforment les objets en aval et invalident la construction finale. Nous identifions ce régime comme des tâches GUI sensibles à la précision, nécessitant une exactitude au niveau du point, une vérification tenant compte de la géométrie et une robustesse face à la propagation d'erreurs dépendant des dépendances. Pour l'évaluer, nous introduisons PAGE Bench, comprenant 4 906 problèmes et plus de 224 000 actions GUI supervisées par processus au niveau du pixel. Nous proposons également PAGER, un agent sensible à la topologie qui décompose la construction en planification structurée par dépendances et exécution au niveau du pixel. L'ajustement supervisé ancré dans les pixels établit une grammaire d'action exécutable, tandis que l'apprentissage par renforcement aligné sur la précision atténue le biais d'exposition induit par le déploiement grâce à un retour géométrique conditionné par l'état. Les expériences révèlent un écart sémantique-exécution prononcé : les modèles multimodaux généraux peuvent dépasser 88 % de précision sur le type d'action mais restent en dessous de 6 % de réussite de tâche. PAGER comble cet écart, offrant 4,1 fois plus de réussite de tâche que la référence générale la plus forte évaluée et portant le taux de réussite des étapes de moins de 9 % pour les agents spécialisés GUI à plus de 62 %, établissant un nouvel état de l'art pour le contrôle GUI précis au point près.

English

Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.