POINTS-GUI-G: A Jornada de Fundamentação de GUI

Resumo

O rápido avanço dos modelos visão-linguagem catalisou o surgimento de agentes de interface gráfica (GUI), que possuem imenso potencial para automatizar tarefas complexas, desde compras online até reservas de voos, aliviando assim a carga de fluxos de trabalho digitais repetitivos. Como capacidade fundamental, o grounding de GUI é tipicamente estabelecido como pré-requisito para a execução de tarefas end-to-end. Ele permite que os modelos localizem com precisão elementos de interface, como texto e ícones, para realizar operações precisas como cliques e digitação. Diferente de trabalhos anteriores que ajustam modelos já dotados de forte consciência espacial (ex: Qwen3-VL), nosso objetivo é dominar o pipeline técnico completo partindo de um modelo base com capacidade mínima de grounding, como o POINTS-1.5. Apresentamos o POINTS-GUI-G-8B, que atinge desempenho state-of-the-art com pontuações de 59,9 no ScreenSpot-Pro, 66,0 no OSWorld-G, 95,7 no ScreenSpot-v2 e 49,9 no UI-Vision. O sucesso do nosso modelo é impulsionado por três fatores-chave: (1) Engenharia de Dados Refinada, envolvendo a unificação de formatos de diversos datasets de código aberto juntamente com estratégias sofisticadas de aumento, filtragem e classificação por dificuldade; (2) Estratégias de Treinamento Aprimoradas, incluindo fine-tuning contínuo do codificador visual para melhorar a precisão perceptual e manutenção da consistência de resolução entre treinamento e inferência; e (3) Aprendizado por Reforço (RL) com Recompensas Verificáveis. Embora o RL seja tradicionalmente usado para fortalecer o raciocínio, demonstramos que ele melhora significativamente a precisão na tarefa de grounding de GUI, intensiva em percepção. Adicionalmente, o grounding de GUI oferece uma vantagem natural para o RL, pois as recompensas são facilmente verificáveis e altamente precisas.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.

POINTS-GUI-G: A Jornada de Fundamentação de GUI

POINTS-GUI-G: GUI-Grounding Journey

Resumo

Support