OS-ATLAS: Um Modelo de Ação Fundamental para Agentes de Interface Gráfica do Usuário Generalistas
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
Autores: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
Resumo
Os esforços existentes na construção de agentes de interface gráfica do usuário (GUI) dependem fortemente da disponibilidade de Modelos de Visão-Linguagem (VLMs) comerciais robustos, como o GPT-4o e o GeminiProVision. Os profissionais muitas vezes relutam em usar VLMs de código aberto devido ao seu significativo atraso de desempenho em comparação com seus equivalentes de código fechado, especialmente em cenários de fundamentação de GUI e situações Fora da Distribuição (OOD). Para facilitar futuras pesquisas nessa área, desenvolvemos o OS-Atlas - um modelo de ação de GUI fundamental que se destaca em fundamentação de GUI e tarefas agentivas OOD por meio de inovações tanto em dados quanto em modelagem. Investimos esforços significativos de engenharia no desenvolvimento de um conjunto de ferramentas de código aberto para sintetizar dados de fundamentação de GUI em várias plataformas, incluindo Windows, Linux, MacOS, Android e web. Aproveitando este conjunto de ferramentas, estamos lançando o maior corpus de fundamentação de GUI de código aberto multiplataforma até o momento, que contém mais de 13 milhões de elementos de GUI. Este conjunto de dados, combinado com inovações no treinamento de modelos, fornece uma base sólida para o OS-Atlas entender capturas de tela de GUI e generalizar para interfaces não vistas. Através de uma extensa avaliação em seis benchmarks abrangendo três plataformas diferentes (móvel, desktop e web), o OS-Atlas demonstra melhorias significativas de desempenho em relação aos modelos anteriores de última geração. Nossa avaliação também revela insights valiosos para melhorar continuamente e escalar as capacidades agentivas de VLMs de código aberto.
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary