POINTS-GUI-G : Le parcours de l'ancrage GUI

Résumé

L'avancée rapide des modèles vision-langage a catalysé l'émergence d'agents d'interface graphique, qui présentent un potentiel immense pour automatiser des tâches complexes, des achats en ligne à la réservation de vols, soulageant ainsi la charge des workflows numériques répétitifs. En tant que capacité fondamentale, l'ancrage dans l'interface graphique est généralement établi comme un prérequis pour l'exécution de tâches de bout en bout. Il permet aux modèles de localiser avec précision les éléments d'interface, tels que le texte et les icônes, pour effectuer des opérations précises comme des clics et de la saisie. Contrairement aux travaux antérieurs qui mettent au point des modèles possédant déjà une forte conscience spatiale (par exemple, Qwen3-VL), nous visons à maîtriser l'intégralité de la chaîne technique en partant d'un modèle de base avec une capacité d'ancrage minimale, tel que POINTS-1.5. Nous présentons POINTS-GUI-G-8B, qui atteint des performances de pointe avec des scores de 59,9 sur ScreenSpot-Pro, 66,0 sur OSWorld-G, 95,7 sur ScreenSpot-v2 et 49,9 sur UI-Vision. Le succès de notre modèle est porté par trois facteurs clés : (1) l'Ingénierie de Données Raffinée, impliquant l'unification du format de divers ensembles de données open source ainsi que des stratégies sophistiquées d'augmentation, de filtrage et de classement par difficulté ; (2) les Stratégies d'Entraînement Améliorées, incluant un réglage fin continu de l'encodeur visuel pour améliorer la précision perceptuelle et le maintien de la cohérence de résolution entre l'entraînement et l'inférence ; et (3) l'Apprentissage par Renforcement avec Récompenses Vérifiables. Bien que l'apprentissage par renforcement soit traditionnellement utilisé pour renforcer le raisonnement, nous démontrons qu'il améliore significativement la précision dans la tâche d'ancrage d'interface graphique, pourtant exigeante en perception. De plus, l'ancrage d'interface graphique offre un avantage naturel pour l'apprentissage par renforcement, car les récompenses sont facilement vérifiables et très précises.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.

POINTS-GUI-G : Le parcours de l'ancrage GUI

POINTS-GUI-G: GUI-Grounding Journey

Résumé

Support