POINTS-GUI-G: GUI-Grondingstraject

Samenvatting

De snelle vooruitgang van vision-language-modellen heeft de opkomst van GUI-agenten gekatalyseerd. Deze agenten hebben een enorm potentieel voor het automatiseren van complexe taken, van online winkelen tot het boeken van vluchten, waardoor de last van repetitieve digitale workflows wordt verlicht. Als fundamentele capaciteit wordt GUI-gronding typisch gevestigd als een vereiste voor end-to-end taakuitvoering. Het stelt modellen in staat om interface-elementen, zoals tekst en pictogrammen, precies te lokaliseren om accurate handelingen zoals klikken en typen uit te voeren. In tegenstelling tot eerdere werken die modellen finetunen die al een sterk ruimtelijk bewustzijn hebben (bijv. Qwen3-VL), streven wij ernaar om de volledige technische pijplijn te beheersen door te starten vanaf een basismodel met minimale grondingscapaciteit, zoals POINTS-1.5. Wij introduceren POINTS-GUI-G-8B, dat state-of-the-art prestaties bereikt met scores van 59,9 op ScreenSpot-Pro, 66,0 op OSWorld-G, 95,7 op ScreenSpot-v2 en 49,9 op UI-Vision. Het succes van ons model wordt gedreven door drie sleutelfactoren: (1) Verfijnde Data-engineering, waarbij de formaten van diverse open-source datasets worden gestandaardiseerd naast verfijnde strategieën voor augmentatie, filtering en moeilijkheidsgradatie; (2) Verbeterde Trainingsstrategieën, waaronder continue finetuning van de vision-encoder om de perceptuele nauwkeurigheid te verbeteren en het handhaven van resolutieconsistentie tussen training en inferentie; en (3) Reinforcement Learning (RL) met Verifieerbare Beloningen. Hoewel RL traditioneel wordt gebruikt om redenering te versterken, tonen wij aan dat het de precisie significant verbetert in de perceptie-intensieve GUI-grondingstaak. Bovendien biedt GUI-gronding een natuurlijk voordeel voor RL, omdat beloningen eenvoudig verifieerbaar en zeer nauwkeurig zijn.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.

POINTS-GUI-G: GUI-Grondingstraject

POINTS-GUI-G: GUI-Grounding Journey

Samenvatting

Support