OS-ATLAS: Un Modelo de Acción Fundamental para Agentes GUI Generalistas
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
Autores: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
Resumen
Los esfuerzos existentes en la construcción de agentes de interfaz gráfica de usuario (GUI) dependen en gran medida de la disponibilidad de Modelos Visión-Lenguaje comerciales robustos (VLM) como GPT-4o y GeminiProVision. Los profesionales a menudo se muestran reacios a utilizar VLM de código abierto debido a su notable rezago de rendimiento en comparación con sus contrapartes de código cerrado, especialmente en la fundamentación de GUI y escenarios Fuera de Distribución (OOD). Para facilitar futuras investigaciones en esta área, desarrollamos OS-Atlas, un modelo de acción GUI fundamental que sobresale en la fundamentación de GUI y tareas agentes OOD a través de innovaciones tanto en datos como en modelado. Hemos invertido un esfuerzo de ingeniería significativo en el desarrollo de un conjunto de herramientas de código abierto para sintetizar datos de fundamentación de GUI en múltiples plataformas, incluyendo Windows, Linux, MacOS, Android y la web. Aprovechando este conjunto de herramientas, estamos lanzando el corpus de fundamentación de GUI de código abierto multiplataforma más grande hasta la fecha, que contiene más de 13 millones de elementos de GUI. Este conjunto de datos, combinado con innovaciones en el entrenamiento de modelos, proporciona una base sólida para que OS-Atlas comprenda capturas de pantalla de GUI y se generalice a interfaces no vistas. A través de una evaluación extensa en seis pruebas que abarcan tres plataformas diferentes (móvil, escritorio y web), OS-Atlas demuestra mejoras significativas en el rendimiento en comparación con modelos previos de vanguardia. Nuestra evaluación también revela ideas valiosas para mejorar y escalar continuamente las capacidades agentes de VLM de código abierto.
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary