GoClick: Modelo Leve de Ancoragem de Elementos para Interação Autônoma com Interface Gráfica

Resumo

A ancoragem de elementos de Interface Gráfica do Utilizador (GUI) (localizar com precisão elementos em capturas de ecrã com base em instruções de linguagem natural) é fundamental para agentes que interagem com GUIs. Implementar esta capacidade diretamente em dispositivos com recursos limitados, como telemóveis, é cada vez mais crítico para agentes de GUI que exigem baixa latência. No entanto, este objetivo enfrenta um desafio significativo, uma vez que os métodos atuais de ancoragem visual normalmente empregam modelos visão-linguagem (VLM) de grande dimensão (mais de 2,5 mil milhões de parâmetros), tornando-os impraticáveis para execução *on-device* devido a restrições de memória e computação. Para resolver isto, este artigo apresenta o GoClick, um VLM leve para ancoragem de elementos de GUI com apenas 230M de parâmetros que alcança uma excelente precisão de ancoragem visual, equiparável até a modelos significativamente maiores. Reduzir simplesmente o tamanho de VLMs existentes apenas com descodificador é uma forma direta de projetar um modelo leve, mas as nossas experiências revelam que esta abordagem produz resultados subóptimos. Em vez disso, selecionámos uma arquitetura de codificador-descodificador, que supera as alternativas apenas com descodificador em escalas de parâmetros pequenas para tarefas de ancoragem em GUI. Adicionalmente, a capacidade limitada de pequenos VLMs incentiva-nos a desenvolver um pipeline de Refinamento Progressivo de Dados que utiliza filtragem por tipo de tarefa e ajuste da proporção de dados para extrair um conjunto central de alta qualidade com 3,8M de exemplos a partir de um conjunto de dados bruto de 10,8M. Treinar o GoClick usando este conjunto central traz ganhos notáveis na precisão de ancoragem. As nossas experiências mostram que o GoClick se destaca em vários benchmarks de ancoragem de elementos de GUI, mantendo um tamanho reduzido e uma alta velocidade de inferência. O GoClick também melhora o desempenho de agentes de GUI quando integrado num quadro de colaboração dispositivo-nuvem, onde o GoClick ajuda os planeadores de tarefas baseados na cloud a realizar uma localização precisa de elementos e a alcançar taxas de sucesso mais elevadas. Esperamos que o nosso método sirva como uma exploração significativa dentro da comunidade de agentes de GUI.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Modelo Leve de Ancoragem de Elementos para Interação Autônoma com Interface Gráfica

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Resumo

Support