ShowUI: Een Vision-Language-Action Model voor GUI Visuele Agent.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
Auteurs: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
Samenvatting
Het bouwen van Graphical User Interface (GUI) assistenten biedt aanzienlijke belofte om de productiviteit van menselijke workflows te verbeteren. Hoewel de meeste agenten op taal zijn gebaseerd en vertrouwen op een closed-source API met tekstrijke meta-informatie (bijv. HTML of toegankelijkheidsboom), vertonen ze beperkingen in het waarnemen van UI-visuele elementen zoals mensen dat doen, wat de noodzaak benadrukt voor GUI-visuele agenten. In dit werk ontwikkelen we een visie-taal-actie model in de digitale wereld, genaamd ShowUI, dat de volgende innovaties bevat: (i) UI-Gestuurde Visuele Token Selectie om computationele kosten te verlagen door schermafbeeldingen te formuleren als een UI verbonden grafiek, adaptief hun overbodige relatie identificerend en dienend als criteria voor tokenselectie tijdens zelfaandachtsblokken; (ii) Onderlinge Visie-Taal-Actie Streaming die op flexibele wijze diverse behoeften binnen GUI-taken verenigt, waardoor effectief beheer van visuele-actiegeschiedenis mogelijk is bij navigatie of het koppelen van multi-turn query-actiesequenties per schermafbeelding om de trainings-efficiëntie te verbeteren; (iii) Kleinschalige Hoogwaardige GUI Instructie-volgdatasets door zorgvuldige gegevenscuratie en het toepassen van een hersteekproefstrategie om significante onevenwichtigheden in gegevenstypen aan te pakken. Met bovengenoemde componenten behaalt ShowUI, een lichtgewicht 2B-model met 256K gegevens, een sterke nauwkeurigheid van 75,1% bij zero-shot schermafbeelding verankering. De UI-gestuurde tokenselectie vermindert bovendien 33% van overbodige visuele tokens tijdens training en versnelt de prestaties met 1,4x. Navigatie-experimenten over web Mind2Web, mobiele AITW en online MiniWob omgevingen benadrukken verder de effectiviteit en potentie van ons model bij het bevorderen van GUI-visuele agenten. De modellen zijn beschikbaar op https://github.com/showlab/ShowUI.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary