ChatPaper.aiChatPaper

OS-ATLAS: Модель действий на основе фундаментальных принципов для агентов общего назначения с графическим интерфейсом пользователя.

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

October 30, 2024
Авторы: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI

Аннотация

Существующие усилия по созданию агентов с графическим интерфейсом сильно зависят от наличия надежных коммерческих моделей видео-языка (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые исходные коды VLM из-за значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к графическому интерфейсу и сценариях вне распределения (OOD). Для облегчения будущих исследований в этой области мы разработали OS-Atlas - фундаментальную модель действий с графическим интерфейсом, которая превосходит в привязке к графическому интерфейсу и выполнении задач OOD благодаря инновациям как в данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого набора инструментов для синтеза данных привязки к графическому интерфейсу на различных платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот набор инструментов, мы выпускаем к настоящему времени самый крупный открытый кроссплатформенный корпус данных привязки к графическому интерфейсу, который содержит более 13 миллионов элементов графического интерфейса. Этот набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания скриншотов графического интерфейса и обобщения на невидимые интерфейсы. После обширной оценки по шести бенчмаркам, охватывающим три различные платформы (мобильные, настольные и веб-приложения), OS-Atlas демонстрирует значительное улучшение производительности по сравнению с предыдущими передовыми моделями. Наша оценка также выявляет ценные идеи для непрерывного улучшения и масштабирования агентских возможностей открытых исходных кодов VLM.
English
Existing efforts in building GUI agents heavily rely on the availability of robust commercial Vision-Language Models (VLMs) such as GPT-4o and GeminiProVision. Practitioners are often reluctant to use open-source VLMs due to their significant performance lag compared to their closed-source counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD) scenarios. To facilitate future research in this area, we developed OS-Atlas - a foundational GUI action model that excels at GUI grounding and OOD agentic tasks through innovations in both data and modeling. We have invested significant engineering effort in developing an open-source toolkit for synthesizing GUI grounding data across multiple platforms, including Windows, Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing the largest open-source cross-platform GUI grounding corpus to date, which contains over 13 million GUI elements. This dataset, combined with innovations in model training, provides a solid foundation for OS-Atlas to understand GUI screenshots and generalize to unseen interfaces. Through extensive evaluation across six benchmarks spanning three different platforms (mobile, desktop, and web), OS-Atlas demonstrates significant performance improvements over previous state-of-the-art models. Our evaluation also uncovers valuable insights into continuously improving and scaling the agentic capabilities of open-source VLMs.

Summary

AI-Generated Summary

PDF513November 13, 2024