ShowUI: Um Modelo de Visão-Linguagem-Ação para Agente Visual de Interface Gráfica do Usuário
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
Autores: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
Resumo
A construção de assistentes de Interface Gráfica do Usuário (GUI) tem um grande potencial para melhorar a produtividade no fluxo de trabalho humano. Embora a maioria dos agentes seja baseada em linguagem, dependendo de API de código fechado com metainformações ricas em texto (por exemplo, HTML ou árvore de acessibilidade), eles apresentam limitações na percepção de elementos visuais da UI como os humanos fazem, destacando a necessidade de agentes visuais de GUI. Neste trabalho, desenvolvemos um modelo de visão-linguagem-ação no mundo digital, chamado ShowUI, que apresenta as seguintes inovações: (i) Seleção de Tokens Visuais Guiada por UI para reduzir custos computacionais formulando capturas de tela como um grafo conectado de UI, identificando adaptativamente seus relacionamentos redundantes e servindo como critério para seleção de tokens durante blocos de autoatenção; (ii) Transmissão Interlaçada de Visão-Linguagem-Ação que unifica de forma flexível diversas necessidades dentro de tarefas de GUI, permitindo o gerenciamento eficaz do histórico visual-ação na navegação ou no emparelhamento de sequências de consulta-ação de várias etapas por captura de tela para aprimorar a eficiência de treinamento; (iii) Conjuntos de Dados de Instruções de GUI de Pequena Escala e Alta Qualidade por meio de uma cuidadosa curadoria de dados e empregando uma estratégia de reamostragem para lidar com desequilíbrios significativos nos tipos de dados. Com os componentes acima, o ShowUI, um modelo 2B leve usando 256K de dados, alcança uma precisão forte de 75,1% na ancoragem de capturas de tela sem treinamento. Sua seleção de token guiada por UI reduz ainda 33% dos tokens visuais redundantes durante o treinamento e acelera o desempenho em 1,4x. Experimentos de navegação nos ambientes web Mind2Web, mobile AITW e online MiniWob destacam ainda mais a eficácia e o potencial de nosso modelo no avanço de agentes visuais de GUI. Os modelos estão disponíveis em https://github.com/showlab/ShowUI.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary