ShowUI: Одна модель Vision-Language-Action для визуального агента пользовательского интерфейса.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
Авторы: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
Аннотация
Построение ассистентов с графическим пользовательским интерфейсом (GUI) обещает значительно повысить производительность рабочего процесса человека. В то время как большинство агентов основаны на языке и используют закрытые API с мета-информацией, богатой текстом (например, HTML или дерево доступности), они ограничены в способности воспринимать визуальные элементы пользовательского интерфейса так же, как это делают люди, что подчеркивает необходимость агентов с визуальным GUI. В данной работе мы разрабатываем модель видение-язык-действие в цифровом мире, названную ShowUI, которая представляет следующие инновации: (i) UI-ориентированный выбор визуальных токенов для снижения вычислительных затрат путем формулирования снимков экрана как связанного графа UI, адаптивного определения избыточных связей и использования их в качестве критерия выбора токенов во время блоков самовнимания; (ii) Перемеженная передача видение-язык-действие, гибко объединяющая разнообразные потребности в рамках задач GUI, обеспечивая эффективное управление историей визуальных действий при навигации или сопоставлении последовательностей запрос-действие на несколько ходов на каждом снимке для повышения эффективности обучения; (iii) Наборы данных для выполнения инструкций GUI малого масштаба и высокого качества путем тщательной кураторской работы с данными и использования стратегии повторной выборки для решения значительных дисбалансов типов данных. С использованием вышеуказанных компонентов ShowUI, легкая модель 2B, использующая 256K данных, достигает высокой точности в 75,1% при обработке снимков экрана без предварительного обучения. UI-ориентированный выбор токенов дополнительно снижает на 33% избыточных визуальных токенов во время обучения и ускоряет производительность в 1,4 раза. Эксперименты с навигацией на веб-платформах Mind2Web, мобильных AITW и онлайн-окружениях MiniWob дополнительно подчеркивают эффективность и потенциал нашей модели в продвижении агентов с визуальным GUI. Модели доступны на https://github.com/showlab/ShowUI.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary