OmniParser для агента GUI на основе чистого зрительного восприятия
OmniParser for Pure Vision Based GUI Agent
August 1, 2024
Авторы: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
cs.AI
Аннотация
Недавний успех крупных моделей языка и зрения показывает большой потенциал в развитии систем агентов, работающих на пользовательских интерфейсах. Однако мы утверждаем, что мощь мультимодельных моделей, таких как GPT-4V в качестве общего агента на различных операционных системах и в различных приложениях, в значительной степени недооценена из-за отсутствия надежной техники разбора экрана, способной: 1) надежно идентифицировать взаимодействующие иконки в пользовательском интерфейсе, и 2) понимать семантику различных элементов на скриншоте и точно ассоциировать предполагаемое действие с соответствующей областью на экране. Для заполнения этих пробелов мы представляем OmniParser, комплексный метод разбора скриншотов пользовательского интерфейса на структурированные элементы, что значительно улучшает способность GPT-4V генерировать действия, которые могут быть точно связаны с соответствующими областями интерфейса. Сначала мы составили набор данных для обнаружения взаимодействующих иконок, используя популярные веб-страницы и набор данных описаний иконок. Эти наборы данных были использованы для донастройки специализированных моделей: модели обнаружения для разбора взаимодействующих областей на экране и модели подписей для извлечения функциональной семантики обнаруженных элементов. OmniParser значительно повышает производительность GPT-4V на бенчмарке ScreenSpot. И на бенчмарках Mind2Web и AITW, OmniParser с входными данными только из скриншота превосходит базовые значения GPT-4V, требующие дополнительной информации помимо скриншота.
English
The recent success of large vision language models shows great potential in
driving the agent system operating on user interfaces. However, we argue that
the power multimodal models like GPT-4V as a general agent on multiple
operating systems across different applications is largely underestimated due
to the lack of a robust screen parsing technique capable of: 1) reliably
identifying interactable icons within the user interface, and 2) understanding
the semantics of various elements in a screenshot and accurately associate the
intended action with the corresponding region on the screen. To fill these
gaps, we introduce OmniParser, a comprehensive method for parsing user
interface screenshots into structured elements, which significantly enhances
the ability of GPT-4V to generate actions that can be accurately grounded in
the corresponding regions of the interface. We first curated an interactable
icon detection dataset using popular webpages and an icon description dataset.
These datasets were utilized to fine-tune specialized models: a detection model
to parse interactable regions on the screen and a caption model to extract the
functional semantics of the detected elements. OmniParser
significantly improves GPT-4V's performance on ScreenSpot benchmark. And on
Mind2Web and AITW benchmark, OmniParser with screenshot only input
outperforms the GPT-4V baselines requiring additional information outside of
screenshot.Summary
AI-Generated Summary