GoClick: Lichtgewicht Elementverankeringsmodel voor Autonome GUI-Interactie

Samenvatting

Graphical User Interface (GUI) element grounding (het precies lokaliseren van elementen op schermafbeeldingen op basis van natuurlijke taal instructies) is fundamenteel voor agents die met GUI's interageren. Het direct inzetten van deze mogelijkheid op apparaten met beperkte bronnen, zoals mobiele telefoons, wordt steeds kritischer voor GUI-agents die lage latentie vereisen. Dit doel wordt echter geconfronteerd met een aanzienlijke uitdaging, omdat huidige methoden voor visuele grounding typisch grote vision-language modellen (VLM's) gebruiken (meer dan 2,5 miljard parameters), waardoor ze onpraktisch zijn voor uitvoering op het apparaat zelf vanwege geheugen- en rekenbeperkingen. Om dit aan te pakken, introduceert dit artikel GoClick, een lichtgewicht VLM voor GUI-element grounding met slechts 230 miljoen parameters, die een uitstekende nauwkeurigheid voor visuele grounding bereikt, zelfs vergelijkbaar met aanzienlijk grotere modellen. Het simpelweg verkleinen van bestaande decoder-only VLM's is een eenvoudige manier om een lichtgewicht model te ontwerpen, maar onze experimenten tonen aan dat deze aanpak suboptimale resultaten oplevert. In plaats daarvan selecteren we een encoder-decoder architectuur, die beter presteert dan decoder-only alternatieven bij kleine parameterschalen voor GUI-grounding taken. Bovendien moedigt de beperkte capaciteit van kleine VLM's ons aan om een Progressive Data Refinement pijplijn te ontwikkelen die gebruikmaakt van taaktypefiltering en aanpassing van dataverhoudingen om een hoogwaardige kernset van 3,8 miljoen samples te extraheren uit een ruwe dataset van 10,8 miljoen samples. Het trainen van GoClick met deze kernset levert aanzienlijke verbeteringen in groundingnauwkeurigheid op. Onze experimenten tonen aan dat GoClick uitblinkt op meerdere benchmarks voor GUI-element grounding, terwijl het een kleine omvang en hoge inferentiesnelheid behoudt. GoClick verbetert ook de prestaties van GUI-agents wanneer het wordt geïntegreerd in een device-cloud samenwerkingsframework, waarbij GoClick cloudgebaseerde taakplanners helpt bij het uitvoeren van precieze elementlokalisatie en het behalen van hogere slagingspercentages. We hopen dat onze methode dient als een betekenisvolle verkenning binnen de GUI-agent gemeenschap.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Lichtgewicht Elementverankeringsmodel voor Autonome GUI-Interactie

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Samenvatting

Support