GoClick: Облегченная модель привязки элементов для автономного взаимодействия с графическим интерфейсом

Аннотация

Грунтовка элементов графического интерфейса пользователя (GUI) (точное определение местоположения элементов на скриншотах на основе инструкций на естественном языке) является фундаментальной задачей для агентов, взаимодействующих с GUI. Развертывание этой возможности непосредственно на устройствах с ограниченными ресурсами, таких как мобильные телефоны, становится все более критически важным для GUI-агентов, требующих низкой задержки. Однако достижение этой цели сталкивается со значительной проблемой, поскольку современные методы визуального grounding обычно используют большие визуально-языковые модели (VLM) (более 2.5 млрд параметров), что делает их непрактичными для выполнения на устройстве из-за ограничений памяти и вычислительных ресурсов. Для решения этой проблемы в данной статье представлена GoClick — облегченная VLM для грунтовки элементов GUI с всего 230 млн параметров, которая достигает превосходной точности визуального grounding, не уступая значительно более крупным моделям. Простое уменьшение размеров существующих VLM, использующих только декодер, является простым способом создания облегченной модели, но наши эксперименты показывают, что этот подход дает неоптимальные результаты. Вместо этого мы выбираем архитектуру кодировщик-декодер, которая превосходит альтернативы только с декодером при малых масштабах параметров для задач GUI grounding. Кроме того, ограниченная емкость малых VLM побуждает нас разработать конвейер прогрессивного очистки данных, который использует фильтрацию по типам задач и регулировку соотношения данных для извлечения высококачественного ядерного набора из 3.8 млн примеров из исходного набора данных объемом 10.8 млн примеров. Обучение GoClick с использованием этого ядерного набора приносит значительное повышение точности grounding. Наши эксперименты показывают, что GoClick превосходит другие модели на нескольких бенчмарках GUI element grounding, сохраняя при этом малый размер и высокую скорость вывода. GoClick также улучшает производительность GUI-агентов при интеграции в framework коллаборации устройство-облако, где GoClick помогает облачным планировщикам задач выполнять точную локализацию элементов и достигать более высоких показателей успешности. Мы надеемся, что наш метод послужит значимым исследованием в сообществе GUI-агентов.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Облегченная модель привязки элементов для автономного взаимодействия с графическим интерфейсом

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Аннотация

Support