POINTS-GUI-G: Viaggio di GUI-Grounding

Abstract

Il rapido progresso dei modelli visione-linguaggio ha catalizzato l'emergere di agenti GUI, che possiedono un immenso potenziale per automatizzare compiti complessi, dallo shopping online alla prenotazione di voli, alleviando così il carico dei flussi di lavoro digitali ripetitivi. Come capacità fondamentale, il grounding dell'interfaccia grafica è tipicamente stabilito come prerequisito per l'esecuzione end-to-end dei compiti. Consente ai modelli di localizzare con precisione gli elementi dell'interfaccia, come testo e icone, per eseguire operazioni accurate come clic e digitazioni. A differenza di lavori precedenti che perfezionano modelli già dotati di una forte consapevolezza spaziale (ad esempio, Qwen3-VL), il nostro obiettivo è padroneggiare l'intera pipeline tecnica partendo da un modello base con capacità di grounding minime, come POINTS-1.5. Presentiamo POINTS-GUI-G-8B, che raggiunge prestazioni all'avanguardia con punteggi di 59,9 su ScreenSpot-Pro, 66,0 su OSWorld-G, 95,7 su ScreenSpot-v2 e 49,9 su UI-Vision. Il successo del nostro modello è guidato da tre fattori chiave: (1) Ingegneria dei dati raffinata, che coinvolge l'unificazione del formato di diversi dataset open-source insieme a strategie sofisticate per l'aumento, il filtraggio e la classificazione per difficoltà; (2) Strategie di addestramento migliorate, incluso il fine-tuning continuo dell'encoder visivo per potenziare l'accuratezza percettiva e il mantenimento della coerenza della risoluzione tra addestramento e inferenza; e (3) Apprendimento per Rinforzo (RL) con Ricompense Verificabili. Sebbene l'RL sia tradizionalmente utilizzato per potenziare il ragionamento, dimostriamo che migliora significativamente la precisione nel compito di grounding GUI, intensivo a livello percettivo. Inoltre, il grounding GUI fornisce un vantaggio naturale per l'RL, poiché le ricompense sono facilmente verificabili e altamente accurate.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.

POINTS-GUI-G: Viaggio di GUI-Grounding

POINTS-GUI-G: GUI-Grounding Journey

Abstract

Support