PAGER: Superando a Lacuna Semântica-Execução no Controle Geométrico de GUI com Precisão de Ponto

Resumo

Grandes modelos de visão-linguagem avançaram significativamente os agentes GUI, possibilitando interações executáveis em interfaces web, móveis e de desktop. No entanto, esses ganhos dependem amplamente de um paradigma tolerante a regiões, onde muitos pixels próximos dentro do mesmo componente permanecem válidos. A construção geométrica precisa quebra essa suposição: as ações devem incidir sobre pontos no espaço contínuo da tela, e não em regiões tolerantes. Como os primitivos geométricos carregam dependências ontológicas, um erro de coordenada local pode induzir falhas topológicas em cascata que distorcem objetos subsequentes e invalidam a construção final. Identificamos esse regime como tarefas GUI sensíveis à precisão, exigindo exatidão ao nível de ponto, verificação consciente da geometria e robustez à propagação de erros orientada por dependências. Para avaliá-lo, introduzimos o PAGE Bench, com 4.906 problemas e mais de 224 mil ações GUI supervisionadas por processo em nível de pixel. Propomos ainda o PAGER, um agente consciente da topologia que decompõe a construção em planejamento estruturado por dependências e execução em nível de pixel. O ajuste supervisionado fundamentado em pixels estabelece uma gramática de ação executável, enquanto o aprendizado por reforço alinhado à precisão mitiga o viés de exposição induzido por rollout por meio de feedback geométrico condicionado ao estado. Experimentos revelam uma pronunciada Lacuna Semântico-Execução: modelos multimodais gerais podem exceder 88% de precisão no tipo de ação, mas permanecem abaixo de 6% de sucesso na tarefa. O PAGER fecha essa lacuna, proporcionando um sucesso na tarefa 4,1 vezes maior do que a melhor linha de base geral avaliada e elevando a taxa de sucesso de etapas de menos de 9% para agentes especializados em GUI para mais de 62%, estabelecendo um novo estado da arte para controle GUI com precisão de ponto.

English

Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.