ShowUI: Un Modelo de Visión-Lenguaje-Acción para Agente Visual de Interfaz Gráfica de Usuario
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
Autores: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
Resumen
La construcción de asistentes de Interfaz Gráfica de Usuario (GUI) tiene un gran potencial para mejorar la productividad del flujo de trabajo humano. Aunque la mayoría de los agentes se basan en lenguaje, dependiendo de API de código cerrado con meta-información rica en texto (por ejemplo, HTML o árbol de accesibilidad), muestran limitaciones en la percepción de elementos visuales de la interfaz de usuario como lo hacen los humanos, resaltando la necesidad de agentes visuales de GUI. En este trabajo, desarrollamos un modelo visión-lenguaje-acción en el mundo digital, llamado ShowUI, que presenta las siguientes innovaciones: (i) Selección de Tokens Visuales Guiada por la Interfaz de Usuario para reducir costos computacionales formulando capturas de pantalla como un grafo conectado de la interfaz de usuario, identificando de manera adaptativa sus relaciones redundantes y sirviendo como criterio para la selección de tokens durante bloques de autoatención; (ii) Transmisión Interleada de Visión-Lenguaje-Acción que unifica de manera flexible diversas necesidades dentro de tareas de GUI, permitiendo la gestión efectiva del historial visual-acción en la navegación o emparejando secuencias de consulta-acción de múltiples turnos por captura de pantalla para mejorar la eficiencia del entrenamiento; (iii) Conjuntos de Datos de Instrucciones de GUI de Alta Calidad a Pequeña Escala mediante una cuidadosa curación de datos y empleando una estrategia de remuestreo para abordar desequilibrios significativos en los tipos de datos. Con los componentes mencionados, ShowUI, un modelo 2B ligero que utiliza 256K datos, logra una sólida precisión del 75.1% en la localización de capturas de pantalla sin entrenamiento previo. Su selección de tokens guiada por la interfaz de usuario reduce adicionalmente el 33% de tokens visuales redundantes durante el entrenamiento y acelera el rendimiento en un 1.4x. Experimentos de navegación en los entornos web Mind2Web, móvil AITW y en línea MiniWob subrayan aún más la efectividad y potencial de nuestro modelo en el avance de agentes visuales de GUI. Los modelos están disponibles en https://github.com/showlab/ShowUI.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary