GoClick: Leichtgewichtiges Elementverankerungsmodell für autonome GUI-Interaktion

Zusammenfassung

Die Verankerung von Elementen der grafischen Benutzeroberfläche (GUI) (das präzise Lokalisieren von Elementen auf Bildschirmfotos anhand natürlicher Sprachbefehle) ist grundlegend für Agenten, die mit GUIs interagierenieren. Der direkte Einsatz dieser Fähigkeit auf ressourcenbeschränkten Geräten wie Mobiltelefonen wird für GUI-Agenten mit geringen Latenzanforderungen zunehmend kritisch. Dieses Ziel steht jedoch vor einer erheblichen Herausforderung, da aktuelle Methoden zur visuellen Verankerung typischerweise große Vision-Language-Modelle (VLM) (mit mehr als 2,5 Mrd. Parametern) verwenden, was sie aufgrund von Speicher- und Rechenbeschränkungen für die Ausführung auf dem Gerät ungeeignet macht. Um dieses Problem zu lösen, stellt dieser Beitrag GoClick vor, ein leichtgewichtiges VLM zur GUI-Elementverankerung mit nur 230 Mio. Parametern, das eine hervorragende Genauigkeit bei der visuellen Verankerung erreicht, die sogar mit der deutlich größerer Modelle vergleichbar ist. Die einfache Verkleinerung bestehender decoder-only VLMs ist ein naheliegender Weg, um ein leichtgewichtiges Modell zu entwerfen, aber unsere Experimente zeigen, dass dieser Ansatz suboptimale Ergebnisse liefert. Stattdessen wählen wir eine Encoder-Decoder-Architektur, die bei kleinen Parameterzahlen für GUI-Verankerungsaufgaben decoder-only Alternativen übertrifft. Zusätzlich motiviert uns die begrenzte Kapazität kleiner VLMs dazu, eine Progressive Data Refinement-Pipeline zu entwickeln, die Aufgabentyp-Filterung und Datenverhältnisanpassung nutzt, um einen hochwertigen Kerndatensatz mit 3,8 Mio. Beispielen aus einem Rohdatensatz mit 10,8 Mio. Beispielen zu extrahieren. Das Training von GoClick mit diesem Kerndatensatz führt zu bemerkenswerten Genauigkeitssteigerungen bei der Verankerung. Unsere Experimente zeigen, dass GoClick in mehreren Benchmarks zur GUI-Elementverankerung hervorragende Ergebnisse erzielt und dabei eine geringe Größe und hohe Inferenzgeschwindigkeit beibehält. GoClick verbessert auch die Leistung von GUI-Agenten, wenn es in ein Gerät-Cloud-Kollaborationsframework integriert wird, wo GoClick cloud-basierten Aufgabenplanern hilft, eine präzise Elementlokalisierung durchzuführen und höhere Erfolgsquoten zu erzielen. Wir hoffen, dass unsere Methode eine sinnvolle Exploration innerhalb der GUI-Agenten-Community darstellt.

English

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Leichtgewichtiges Elementverankerungsmodell für autonome GUI-Interaktion

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Zusammenfassung

Support