GoClick: Modello Leggero di Ancoraggio degli Elementi per l'Interazione Autonoma con GUI

Abstract

Il grounding degli elementi dell'interfaccia grafica (GUI) (ovvero la localizzazione precisa degli elementi negli screenshot basata su istruzioni in linguaggio naturale) è fondamentale per gli agenti che interagiscono con le GUI. Implementare questa capacità direttamente su dispositivi con risorse limitate, come i telefoni cellulari, è sempre più cruciale per gli agenti GUI che richiedono bassa latenza. Tuttavia, questo obiettivo affronta una sfida significativa, poiché i metodi attuali di visual grounding tipicamente impiegano grandi modelli visione-linguaggio (VLM) (con più di 2,5 miliardi di parametri), rendendoli impraticabili per l'esecuzione on-device a causa dei vincoli di memoria e computazionali. Per affrontare questo problema, questo articolo introduce GoClick, un VLM leggero per il grounding di elementi GUI con soli 230 milioni di parametri, che raggiunge un'eccellente accuratezza di visual grounding, persino pari a modelli significativamente più grandi. Ridurre semplicemente le dimensioni dei VLM esistenti basati solo su decoder è un modo diretto per progettare un modello leggero, ma i nostri esperimenti rivelano che questo approccio produce risultati subottimali. Invece, selezioniamo un'architettura encoder-decoder, che supera le alternative solo-decoder a piccole scale di parametri per i compiti di grounding GUI. Inoltre, la capacità limitata dei piccoli VLM ci ha spinto a sviluppare una pipeline di Raffinamento Progressivo dei Dati che utilizza la filtrazione per tipo di task e l'aggiustamento del rapporto dei dati per estrarre un core set di alta qualità da 3,8 milioni di campioni da un dataset grezzo di 10,8 milioni. Addestrare GoClick utilizzando questo core set apporta notevoli guadagni in accuratezza di grounding. I nostri esperimenti mostrano che GoClick eccelle su molteplici benchmark di grounding per elementi GUI, mantenendo al contempo dimensioni ridotte e un'elevata velocità di inferenza. GoClick migliora anche le prestazioni degli agenti GUI quando integrato in un framework di collaborazione device-cloud, dove GoClick aiuta i pianificatori di task basati su cloud a eseguire una localizzazione precisa degli elementi e a raggiungere tassi di successo più elevati. Speriamo che il nostro metodo serva come un'esplorazione significativa all'interno della comunità degli agenti GUI.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Modello Leggero di Ancoraggio degli Elementi per l'Interazione Autonoma con GUI

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Abstract

Support