PUNTOS-GUI-G: Viaje de Fundamentación de GUI

Resumen

El rápido avance de los modelos de visión y lenguaje ha catalizado la aparición de agentes de interfaz gráfica de usuario (GUI), los cuales poseen un inmenso potencial para automatizar tareas complejas, desde compras en línea hasta reservas de vuelos, aliviando así la carga de los flujos de trabajo digitales repetitivos. Como capacidad fundamental, el grounding de GUI se establece típicamente como un prerrequisito para la ejecución de tareas de extremo a extremo. Permite a los modelos localizar con precisión elementos de la interfaz, como texto e iconos, para realizar operaciones exactas como clics y escritura. A diferencia de trabajos anteriores que ajustan modelos que ya poseen una fuerte conciencia espacial (por ejemplo, Qwen3-VL), nuestro objetivo es dominar la pipeline técnica completa comenzando desde un modelo base con una capacidad de grounding mínima, como POINTS-1.5. Presentamos POINTS-GUI-G-8B, que logra un rendimiento de vanguardia con puntuaciones de 59.9 en ScreenSpot-Pro, 66.0 en OSWorld-G, 95.7 en ScreenSpot-v2 y 49.9 en UI-Vision. El éxito de nuestro modelo se debe a tres factores clave: (1) Ingeniería de Datos Refinada, que implica la unificación del formato de diversos conjuntos de datos de código abierto junto con estrategias sofisticadas para aumento, filtrado y clasificación por dificultad; (2) Estrategias de Entrenamiento Mejoradas, que incluyen el ajuste fino continuo del codificador de visión para mejorar la precisión perceptual y mantener la consistencia de la resolución entre el entrenamiento y la inferencia; y (3) Aprendizaje por Refuerzo (RL) con Recompensas Verificables. Si bien el RL se utiliza tradicionalmente para reforzar el razonamiento, demostramos que mejora significativamente la precisión en la tarea de grounding de GUI, que es intensiva en percepción. Además, el grounding de GUI proporciona una ventaja natural para el RL, ya que las recompensas son fácilmente verificables y muy precisas.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.