ShowUI: Одна модель Vision-Language-Action для визуального агента пользовательского интерфейса.ShowUI: One Vision-Language-Action Model for GUI Visual Agent
Построение ассистентов с графическим пользовательским интерфейсом (GUI) обещает значительно повысить производительность рабочего процесса человека. В то время как большинство агентов основаны на языке и используют закрытые API с мета-информацией, богатой текстом (например, HTML или дерево доступности), они ограничены в способности воспринимать визуальные элементы пользовательского интерфейса так же, как это делают люди, что подчеркивает необходимость агентов с визуальным GUI. В данной работе мы разрабатываем модель видение-язык-действие в цифровом мире, названную ShowUI, которая представляет следующие инновации: (i) UI-ориентированный выбор визуальных токенов для снижения вычислительных затрат путем формулирования снимков экрана как связанного графа UI, адаптивного определения избыточных связей и использования их в качестве критерия выбора токенов во время блоков самовнимания; (ii) Перемеженная передача видение-язык-действие, гибко объединяющая разнообразные потребности в рамках задач GUI, обеспечивая эффективное управление историей визуальных действий при навигации или сопоставлении последовательностей запрос-действие на несколько ходов на каждом снимке для повышения эффективности обучения; (iii) Наборы данных для выполнения инструкций GUI малого масштаба и высокого качества путем тщательной кураторской работы с данными и использования стратегии повторной выборки для решения значительных дисбалансов типов данных. С использованием вышеуказанных компонентов ShowUI, легкая модель 2B, использующая 256K данных, достигает высокой точности в 75,1% при обработке снимков экрана без предварительного обучения. UI-ориентированный выбор токенов дополнительно снижает на 33% избыточных визуальных токенов во время обучения и ускоряет производительность в 1,4 раза. Эксперименты с навигацией на веб-платформах Mind2Web, мобильных AITW и онлайн-окружениях MiniWob дополнительно подчеркивают эффективность и потенциал нашей модели в продвижении агентов с визуальным GUI. Модели доступны на https://github.com/showlab/ShowUI.