POINTS-GUI-G: Путь к GUI-Граундингу

Аннотация

Быстрое развитие визуально-языковых моделей стимулировало появление GUI-агентов, обладающих огромным потенциалом для автоматизации сложных задач — от онлайн-покупок до бронирования авиабилетов, — что позволяет снизить нагрузку от рутинных цифровых процессов. Фундаментальной способностью таких систем является GUI-граундинг (привязка к элементам интерфейса), который обычно формируется как предварительное условие для сквозного выполнения задач. Он позволяет моделям точно локализовать элементы интерфейса, такие как текст и иконки, для выполнения точных операций, например, кликов и ввода текста. В отличие от предыдущих работ, в которых дообучаются модели, уже обладающие развитым пространственным восприятием (например, Qwen3-VL), наша цель — освоить полный технологический цикл, начав с базовой модели с минимальными способностями к граундингу, такой как POINTS-1.5. Мы представляем модель POINTS-GUI-G-8B, которая демонстрирует наилучшие результаты с показателями 59.9 на ScreenSpot-Pro, 66.0 на OSWorld-G, 95.7 на ScreenSpot-v2 и 49.9 на UI-Vision. Успех нашей модели обусловлен тремя ключевыми факторами: (1) Усовершенствованная инженерия данных, включающая унификацию форматов разнородных открытых наборов данных, а также сложные стратегии аугментации, фильтрации и градации по сложности; (2) Улучшенные стратегии обучения, в том числе непрерывное дообучение визуального энкодера для повышения точности восприятия и поддержание согласованности разрешения между обучением и выводом; и (3) Обучение с подкреплением (Reinforcement Learning, RL) с верифицируемыми вознаграждениями. Хотя RL традиционно используется для улучшения рассуждений, мы показываем, что оно значительно повышает точность в задаче GUI-граундинга, требующей интенсивного восприятия. Более того, GUI-граундинг предоставляет естественное преимущество для RL, поскольку вознаграждения легко проверяемы и обладают высокой точностью.

English

The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.

POINTS-GUI-G: Путь к GUI-Граундингу

POINTS-GUI-G: GUI-Grounding Journey

Аннотация

Support