GoClick: Modelo Liviano de Anclaje de Elementos para Interacción Autónoma en Interfaces Gráficas

Resumen

La fundamentación de elementos de interfaz gráfica de usuario (GUI) (localizar con precisión elementos en capturas de pantalla basándose en instrucciones en lenguaje natural) es fundamental para los agentes que interactúan con GUI. Desplegar esta capacidad directamente en dispositivos con recursos limitados, como teléfonos móviles, es cada vez más crítico para los agentes de GUI que requieren baja latencia. Sin embargo, este objetivo enfrenta un desafío significativo, ya que los métodos actuales de fundamentación visual suelen emplear grandes modelos de visión y lenguaje (VLM) (con más de 2.5B parámetros), lo que los hace impracticables para su ejecución en el dispositivo debido a las limitaciones de memoria y computación. Para abordar esto, este artículo presenta GoClick, un VLM liviano para fundamentación de elementos GUI con solo 230M parámetros que logra una excelente precisión de fundamentación visual, incluso a la par de modelos significativamente más grandes. Simplemente reducir el tamaño de los VLMs existentes que solo tienen decodificador es una forma sencilla de diseñar un modelo liviano, pero nuestros experimentos revelan que este enfoque produce resultados subóptimos. En su lugar, seleccionamos una arquitectura de codificador-decodificador, que supera a las alternativas de solo decodificador en escalas de parámetros pequeñas para tareas de fundamentación de GUI. Adicionalmente, la capacidad limitada de los VLM pequeños nos impulsa a desarrollar un pipeline de Refinamiento Progresivo de Datos que utiliza filtrado por tipo de tarea y ajuste de proporción de datos para extraer un conjunto central de alta calidad de 3.8M muestras a partir de un conjunto de datos crudo de 10.8M. Entrenar GoClick usando este conjunto central aporta ganancias notables en la precisión de la fundamentación. Nuestros experimentos muestran que GoClick sobresale en múltiples benchmarks de fundamentación de elementos GUI, manteniendo un tamaño reducido y una alta velocidad de inferencia. GoClick también mejora el rendimiento de los agentes de GUI cuando se integra en un marco de colaboración dispositivo-nube, donde GoClick ayuda a los planificadores de tareas basados en la nube a realizar una localización precisa de elementos y lograr tasas de éxito más altas. Esperamos que nuestro método sirva como una exploración significativa dentro de la comunidad de agentes de GUI.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Modelo Liviano de Anclaje de Elementos para Interacción Autónoma en Interfaces Gráficas

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Resumen

Support