PAGER: Cerrando la brecha semántico-ejecución en el control geométrico de GUI con precisión puntual

Resumen

Los grandes modelos de lenguaje y visión han avanzado significativamente en los agentes de interfaz gráfica de usuario (GUI), permitiendo una interacción ejecutable en interfaces web, móviles y de escritorio. Sin embargo, estos avances dependen en gran medida de un paradigma tolerante a regiones, donde muchos píxeles cercanos dentro del mismo componente siguen siendo válidos. La construcción geométrica precisa rompe esta suposición: las acciones deben situarse en puntos del espacio continuo del lienzo, en lugar de regiones tolerantes. Debido a que los primitivos geométricos conllevan dependencias ontológicas, un error de coordenadas local puede inducir fallos topológicos en cascada que distorsionan los objetos posteriores e invalidan la construcción final. Identificamos este régimen como tareas de GUI sensibles a la precisión, que requieren exactitud a nivel de punto, verificación basada en geometría y robustez frente a la propagación de errores impulsada por dependencias. Para evaluarlo, presentamos PAGE Bench, con 4,906 problemas y más de 224 mil acciones de GUI a nivel de píxel supervisadas por proceso. Además, proponemos PAGER, un agente consciente de la topología que descompone la construcción en planificación estructurada por dependencias y ejecución a nivel de píxel. El ajuste supervisado basado en píxeles establece una gramática de acciones ejecutables, mientras que el aprendizaje por refuerzo alineado con precisión mitiga el sesgo de exposición inducido por el despliegue mediante retroalimentación geométrica condicionada al estado. Los experimentos revelan una marcada brecha semántico-ejecutiva: los modelos multimodales generales pueden superar el 88% de precisión en el tipo de acción, pero permanecen por debajo del 6% de éxito en la tarea. PAGER cierra esta brecha, logrando un éxito en la tarea 4.1 veces mayor que la mejor línea base general evaluada y elevando la tasa de éxito de paso de menos del 9% para agentes especializados en GUI a más del 62%, estableciendo un nuevo estado del arte para el control de GUI con precisión puntual.

English

Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.