OS-ATLAS: Модель действий на основе фундаментальных принципов для агентов общего назначения с графическим интерфейсом пользователя.OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
Существующие усилия по созданию агентов с графическим интерфейсом сильно зависят от наличия надежных коммерческих моделей видео-языка (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые исходные коды VLM из-за значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к графическому интерфейсу и сценариях вне распределения (OOD). Для облегчения будущих исследований в этой области мы разработали OS-Atlas - фундаментальную модель действий с графическим интерфейсом, которая превосходит в привязке к графическому интерфейсу и выполнении задач OOD благодаря инновациям как в данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого набора инструментов для синтеза данных привязки к графическому интерфейсу на различных платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот набор инструментов, мы выпускаем к настоящему времени самый крупный открытый кроссплатформенный корпус данных привязки к графическому интерфейсу, который содержит более 13 миллионов элементов графического интерфейса. Этот набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания скриншотов графического интерфейса и обобщения на невидимые интерфейсы. После обширной оценки по шести бенчмаркам, охватывающим три различные платформы (мобильные, настольные и веб-приложения), OS-Atlas демонстрирует значительное улучшение производительности по сравнению с предыдущими передовыми моделями. Наша оценка также выявляет ценные идеи для непрерывного улучшения и масштабирования агентских возможностей открытых исходных кодов VLM.