GoClick : Modèle léger d'ancrage d'éléments pour l'interaction autonome avec les interfaces graphiques

Résumé

L'ancrage des éléments d'interface graphique (GUI) (localisation précise des éléments sur des captures d'écran à partir d'instructions en langage naturel) est fondamental pour les agents interagissant avec les interfaces graphiques. Déployer cette capacité directement sur des appareils à ressources limitées comme les téléphones mobiles est de plus en plus crucial pour les agents d'interface nécessitant une faible latence. Cependant, cet objectif se heurte à un défi de taille, car les méthodes actuelles d'ancrage visuel utilisent généralement de grands modèles vision-langage (VLM) (plus de 2,5 milliards de paramètres), les rendant impraticables pour une exécution sur appareil en raison des contraintes mémoire et computationnelles. Pour y remédier, cet article présente GoClick, un VLM léger pour l'ancrage d'éléments d'interface, avec seulement 230 millions de paramètres, qui atteint une excellente précision d'ancrage visuel, comparable même à des modèles nettement plus grands. Réduire simplement la taille des VLM à décodeur uniquement est une approche directe pour concevoir un modèle léger, mais nos expériences révèlent que cette méthode donne des résultats sous-optimaux. Nous optons plutôt pour une architecture encodeur-décodeur, qui surpasse les alternatives à décodeur uniquement à petite échelle de paramètres pour les tâches d'ancrage sur interface. De plus, la capacité limitée des petits VLM nous incite à développer un pipeline de Raffinement Progressif des Données qui utilise un filtrage par type de tâche et un ajustement du ratio de données pour extraire un ensemble central de haute qualité de 3,8 millions d'échantillons à partir d'un jeu de données brut de 10,8 millions. L'entraînement de GoClick avec cet ensemble central apporte des gains notables en précision d'ancrage. Nos expériences montrent que GoClick excelle sur plusieurs benchmarks d'ancrage d'éléments d'interface tout en conservant une petite taille et une vitesse d'inférence élevée. GoClick améliore également les performances des agents d'interface lorsqu'il est intégré dans un cadre de collaboration appareil-cloud, où il aide les planificateurs de tâches basés dans le cloud à effectuer une localisation précise des éléments et à atteindre des taux de réussite plus élevés. Nous espérons que notre méthode constituera une exploration significative au sein de la communauté des agents d'interface graphique.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick : Modèle léger d'ancrage d'éléments pour l'interaction autonome avec les interfaces graphiques

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Résumé

Support