PUNKTE-GUI-G: GUI-Grundierungsreise

Zusammenfassung

Die rasante Entwicklung von Vision-Language-Modellen hat die Entstehung von GUI-Agenten beschleunigt, die enormes Potenzial für die Automatisierung komplexer Aufgaben besitzen – vom Online-Shopping bis zur Flugbuchung – und so die Belastung durch repetitive digitale Arbeitsabläufe verringern. Als grundlegende Fähigkeit wird GUI-Grounding typischerweise als Voraussetzung für end-to-end-Aufgabenausführung etabliert. Es ermöglicht Modellen, Schnittstellenelemente wie Text und Ikonen präzise zu lokalisieren, um genaue Operationen wie Klicken und Tippen durchzuführen. Im Gegensatz zu früheren Arbeiten, die Modelle mit bereits starker räumlicher Wahrnehmung (z.B. Qwen3-VL) feinabstimmen, zielen wir darauf ab, die gesamte technische Pipeline zu beherrschen, indem wir mit einem Basismodell mit minimaler Grounding-Fähigkeit beginnen, wie POINTS-1.5. Wir stellen POINTS-GUI-G-8B vor, das state-of-the-art Leistung mit Werten von 59,9 auf ScreenSpot-Pro, 66,0 auf OSWorld-G, 95,7 auf ScreenSpot-v2 und 49,9 auf UI-Vision erzielt. Der Erfolg unseres Modells wird von drei Schlüsselfaktoren getrieben: (1) Verfeinertes Data Engineering, das die Vereinheitlichung verschiedener Open-Source-Datensatzformate sowie anspruchsvolle Strategien zur Augmentierung, Filterung und Schwierigkeitsgraduierung umfasst; (2) Verbesserte Trainingsstrategien, einschließlich kontinuierlichem Fine-Tuning des Vision-Encoders zur Steigerung der Wahrnehmungsgenauigkeit und Beibehaltung der Auflösungskonsistenz zwischen Training und Inferenz; und (3) Reinforcement Learning (RL) mit überprüfbaren Belohnungen. Während RL traditionell zur Stärkung des Reasoning eingesetzt wird, demonstrieren wir, dass es die Präzision in der wahrnehmungsintensiven GUI-Grounding-Aufgabe signifikant verbessert. Darüber hinaus bietet GUI-Grounding einen natürlichen Vorteil für RL, da Belohnungen leicht überprüfbar und hochgenau sind.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.

PUNKTE-GUI-G: GUI-Grundierungsreise

POINTS-GUI-G: GUI-Grounding Journey

Zusammenfassung

Support