PAGER: Преодоление семантико-исполнительского разрыва в поточечно-точном геометрическом управлении графическим интерфейсом

Аннотация

Крупные модели зрения и языка значительно продвинули GUI-агенты, обеспечив исполняемое взаимодействие с веб-, мобильными и настольными интерфейсами. Однако эти достижения во многом опираются на прощающую парадигму, терпимую к области: множество соседних пикселей внутри одного и того же компонента остаются допустимыми. Точное геометрическое построение нарушает это допущение: действия должны попадать в точки непрерывного холстового пространства, а не в толерантные области. Поскольку геометрические примитивы несут онтологические зависимости, локальная ошибка координат может вызвать каскадные топологические сбои, искажающие последующие объекты и делающие итоговое построение недействительным. Мы идентифицируем этот режим как чувствительные к точности задачи GUI, требующие точности на уровне точек, проверки с учётом геометрии и устойчивости к распространению ошибок, обусловленному зависимостями. Для бенчмаркинга этого режима мы представляем PAGE Bench, содержащий 4 906 задач и более 224 тыс. размеченных по процессу действий GUI на уровне пикселей. Кроме того, мы предлагаем PAGER — агент, учитывающий топологию, который разбивает построение на планирование, структурированное по зависимостям, и выполнение на уровне пикселей. Контролируемая настройка с привязкой к пикселям устанавливает грамматику исполняемых действий, а согласованное по точности обучение с подкреплением смягчает смещение экспозиции, вызванное развёртыванием, с помощью обратной связи по геометрии, обусловленной состоянием. Эксперименты выявляют выраженный семантико-исполнительный разрыв: общие мультимодальные модели могут превышать 88% точности типа действий, но оставаться ниже 6% успешности задач. PAGER устраняет этот разрыв, обеспечивая в 4,1 раза более высокую успешность задач по сравнению с сильнейшей оценённой общей базой и повышая уровень успешности шага с менее 9% для специализированных на GUI агентов до более 62%, устанавливая новый передовой уровень для точечно точного управления GUI.

English

Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.