ShowUI : Un modèle Vision-Langage-Action pour un Agent Visuel d'Interface Graphique Utilisateur
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
Auteurs: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
Résumé
La création d'assistants d'interface utilisateur graphique (GUI) offre un potentiel significatif pour améliorer la productivité des flux de travail humains. Alors que la plupart des agents sont basés sur le langage, reposant sur des API propriétaires avec des métadonnées riches en texte (par exemple, HTML ou l'arborescence d'accessibilité), ils montrent des limites dans la perception des éléments visuels de l'interface utilisateur comme le font les humains, soulignant ainsi le besoin d'agents visuels GUI. Dans ce travail, nous développons un modèle vision-langage-action dans le monde numérique, nommé ShowUI, qui présente les innovations suivantes : (i) Sélection de jetons visuels guidée par l'interface utilisateur pour réduire les coûts de calcul en formulant des captures d'écran sous forme de graphe d'interface utilisateur, identifiant de manière adaptative leurs relations redondantes et servant de critère de sélection de jetons pendant les blocs d'auto-attention ; (ii) Diffusion intercalée de vision-langage-action qui unifie de manière flexible les besoins divers dans les tâches GUI, permettant une gestion efficace de l'historique des actions visuelles dans la navigation ou l'appariement de séquences de requêtes-actions multi-tours par capture d'écran pour améliorer l'efficacité de l'entraînement ; (iii) Ensembles de données de suivi d'instructions GUI de petite taille et de haute qualité par une curation minutieuse des données et en utilisant une stratégie de rééchantillonnage pour résoudre les déséquilibres significatifs des types de données. Avec les composants ci-dessus, ShowUI, un modèle 2B léger utilisant 256K de données, atteint une précision solide de 75,1% dans l'ancrage de captures d'écran sans pré-entraînement. Sa sélection de jetons guidée par l'interface utilisateur réduit en outre de 33% les jetons visuels redondants lors de l'entraînement et accélère les performances de 1,4 fois. Les expériences de navigation à travers les environnements web Mind2Web, mobile AITW et en ligne MiniWob soulignent en outre l'efficacité et le potentiel de notre modèle dans l'avancement des agents visuels GUI. Les modèles sont disponibles sur https://github.com/showlab/ShowUI.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary