OS-ATLAS: Um Modelo de Ação Fundamental para Agentes de Interface Gráfica do Usuário GeneralistasOS-ATLAS: A Foundation Action Model for Generalist GUI Agents
Os esforços existentes na construção de agentes de interface gráfica do usuário (GUI) dependem fortemente da disponibilidade de Modelos de Visão-Linguagem (VLMs) comerciais robustos, como o GPT-4o e o GeminiProVision. Os profissionais muitas vezes relutam em usar VLMs de código aberto devido ao seu significativo atraso de desempenho em comparação com seus equivalentes de código fechado, especialmente em cenários de fundamentação de GUI e situações Fora da Distribuição (OOD). Para facilitar futuras pesquisas nessa área, desenvolvemos o OS-Atlas - um modelo de ação de GUI fundamental que se destaca em fundamentação de GUI e tarefas agentivas OOD por meio de inovações tanto em dados quanto em modelagem. Investimos esforços significativos de engenharia no desenvolvimento de um conjunto de ferramentas de código aberto para sintetizar dados de fundamentação de GUI em várias plataformas, incluindo Windows, Linux, MacOS, Android e web. Aproveitando este conjunto de ferramentas, estamos lançando o maior corpus de fundamentação de GUI de código aberto multiplataforma até o momento, que contém mais de 13 milhões de elementos de GUI. Este conjunto de dados, combinado com inovações no treinamento de modelos, fornece uma base sólida para o OS-Atlas entender capturas de tela de GUI e generalizar para interfaces não vistas. Através de uma extensa avaliação em seis benchmarks abrangendo três plataformas diferentes (móvel, desktop e web), o OS-Atlas demonstra melhorias significativas de desempenho em relação aos modelos anteriores de última geração. Nossa avaliação também revela insights valiosos para melhorar continuamente e escalar as capacidades agentivas de VLMs de código aberto.