ChatPaper.aiChatPaper

ShowUI: Ein Vision-Sprache-Aktion-Modell für GUI-Visuelle Agenten

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

November 26, 2024
Autoren: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI

Zusammenfassung

Der Aufbau von Graphical User Interface (GUI)-Assistenten birgt ein großes Potenzial zur Steigerung der Produktivität menschlicher Arbeitsabläufe. Während die meisten Agenten sprachbasiert sind und auf Closed-Source-APIs mit textreichen Metainformationen (z. B. HTML oder Zugänglichkeitsbaum) angewiesen sind, zeigen sie Einschränkungen bei der Wahrnehmung von Benutzeroberflächen wie Menschen, was die Notwendigkeit von GUI-Visuellen Agenten unterstreicht. In dieser Arbeit entwickeln wir ein Vision-Sprache-Aktionsmodell in der digitalen Welt, namens ShowUI, das folgende Innovationen aufweist: (i) UI-geführte visuelle Token-Auswahl zur Reduzierung von Rechenkosten durch Formulierung von Bildschirmfotos als UI-verbundener Graph, adaptives Identifizieren ihrer redundanten Beziehung und als Kriterium für die Token-Auswahl während der Selbst-Aufmerksamkeitsblöcke dient; (ii) Verflochtener Vision-Sprache-Aktions-Stream, der unterschiedliche Anforderungen innerhalb von GUI-Aufgaben flexibel vereint, eine effektive Verwaltung von visuell-aktionsgeschichtlichen Navigations- oder Paarungs-Mehrwege-Abfrage-Aktionssequenzen pro Bildschirmfoto ermöglicht, um die Trainingseffizienz zu steigern; (iii) Kleinmaßstäbliche hochwertige GUI-Anweisungsfolge-Datensätze durch sorgfältige Datenaufbereitung und Einsatz einer Neubeprobungsstrategie zur Bewältigung signifikanter Datentyp-Ungleichgewichte. Mit den oben genannten Komponenten erreicht ShowUI, ein leichtgewichtiges 2B-Modell unter Verwendung von 256K Daten, eine starke Genauigkeit von 75,1% bei der Nullschuss-Bildschirmfotoverankerung. Die UI-geführte Token-Auswahl reduziert während des Trainings weitere 33% redundanter visueller Tokens und beschleunigt die Leistung um das 1,4-fache. Navigations-Experimente über die Web Mind2Web, mobile AITW und Online MiniWob-Umgebungen unterstreichen weiter die Effektivität und das Potenzial unseres Modells bei der Weiterentwicklung von GUI-Visuellen Agenten. Die Modelle sind unter https://github.com/showlab/ShowUI verfügbar.
English
Building Graphical User Interface (GUI) assistants holds significant promise for enhancing human workflow productivity. While most agents are language-based, relying on closed-source API with text-rich meta-information (e.g., HTML or accessibility tree), they show limitations in perceiving UI visuals as humans do, highlighting the need for GUI visual agents. In this work, we develop a vision-language-action model in digital world, namely ShowUI, which features the following innovations: (i) UI-Guided Visual Token Selection to reduce computational costs by formulating screenshots as an UI connected graph, adaptively identifying their redundant relationship and serve as the criteria for token selection during self-attention blocks; (ii) Interleaved Vision-Language-Action Streaming that flexibly unifies diverse needs within GUI tasks, enabling effective management of visual-action history in navigation or pairing multi-turn query-action sequences per screenshot to enhance training efficiency; (iii) Small-scale High-quality GUI Instruction-following Datasets by careful data curation and employing a resampling strategy to address significant data type imbalances. With above components, ShowUI, a lightweight 2B model using 256K data, achieves a strong 75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection further reduces 33% of redundant visual tokens during training and speeds up the performance by 1.4x. Navigation experiments across web Mind2Web, mobile AITW, and online MiniWob environments further underscore the effectiveness and potential of our model in advancing GUI visual agents. The models are available at https://github.com/showlab/ShowUI.

Summary

AI-Generated Summary

PDF873November 27, 2024