ChatPaper.aiChatPaper

OmniParser для агента GUI на основе чистого зрительного восприятия

OmniParser for Pure Vision Based GUI Agent

August 1, 2024
Авторы: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
cs.AI

Аннотация

Недавний успех крупных моделей языка и зрения показывает большой потенциал в развитии систем агентов, работающих на пользовательских интерфейсах. Однако мы утверждаем, что мощь мультимодельных моделей, таких как GPT-4V в качестве общего агента на различных операционных системах и в различных приложениях, в значительной степени недооценена из-за отсутствия надежной техники разбора экрана, способной: 1) надежно идентифицировать взаимодействующие иконки в пользовательском интерфейсе, и 2) понимать семантику различных элементов на скриншоте и точно ассоциировать предполагаемое действие с соответствующей областью на экране. Для заполнения этих пробелов мы представляем OmniParser, комплексный метод разбора скриншотов пользовательского интерфейса на структурированные элементы, что значительно улучшает способность GPT-4V генерировать действия, которые могут быть точно связаны с соответствующими областями интерфейса. Сначала мы составили набор данных для обнаружения взаимодействующих иконок, используя популярные веб-страницы и набор данных описаний иконок. Эти наборы данных были использованы для донастройки специализированных моделей: модели обнаружения для разбора взаимодействующих областей на экране и модели подписей для извлечения функциональной семантики обнаруженных элементов. OmniParser значительно повышает производительность GPT-4V на бенчмарке ScreenSpot. И на бенчмарках Mind2Web и AITW, OmniParser с входными данными только из скриншота превосходит базовые значения GPT-4V, требующие дополнительной информации помимо скриншота.
English
The recent success of large vision language models shows great potential in driving the agent system operating on user interfaces. However, we argue that the power multimodal models like GPT-4V as a general agent on multiple operating systems across different applications is largely underestimated due to the lack of a robust screen parsing technique capable of: 1) reliably identifying interactable icons within the user interface, and 2) understanding the semantics of various elements in a screenshot and accurately associate the intended action with the corresponding region on the screen. To fill these gaps, we introduce OmniParser, a comprehensive method for parsing user interface screenshots into structured elements, which significantly enhances the ability of GPT-4V to generate actions that can be accurately grounded in the corresponding regions of the interface. We first curated an interactable icon detection dataset using popular webpages and an icon description dataset. These datasets were utilized to fine-tune specialized models: a detection model to parse interactable regions on the screen and a caption model to extract the functional semantics of the detected elements. OmniParser significantly improves GPT-4V's performance on ScreenSpot benchmark. And on Mind2Web and AITW benchmark, OmniParser with screenshot only input outperforms the GPT-4V baselines requiring additional information outside of screenshot.

Summary

AI-Generated Summary

PDF266November 28, 2024