OS-ATLAS : Un modÚle d'action fondamental pour les agents GUI généralistesOS-ATLAS: A Foundation Action Model for Generalist GUI Agents
Les efforts actuels pour construire des agents GUI reposent fortement sur la disponibilité de modÚles Vision-Language commerciaux robustes (VLM) tels que GPT-4o et GeminiProVision. Les praticiens sont souvent réticents à utiliser des VLM open-source en raison de leur important retard de performance par rapport à leurs homologues en source fermée, notamment dans la localisation GUI et les scénarios Out-Of-Distribution (OOD). Pour faciliter les futures recherches dans ce domaine, nous avons développé OS-Atlas - un modÚle d'action GUI fondamental qui excelle dans la localisation GUI et les tùches agentiques OOD grùce à des innovations à la fois dans les données et la modélisation. Nous avons investi des efforts d'ingénierie significatifs dans le développement d'une trousse à outils open-source pour la synthÚse de données de localisation GUI sur plusieurs plateformes, y compris Windows, Linux, MacOS, Android et le web. En exploitant cette trousse à outils, nous publions le plus grand corpus de localisation GUI open-source multiplateforme à ce jour, qui contient plus de 13 millions d'éléments GUI. Ce jeu de données, combiné à des innovations dans l'entraßnement du modÚle, fournit une base solide pour OS-Atlas afin de comprendre les captures d'écran GUI et de généraliser à des interfaces non vues. à travers une évaluation approfondie sur six benchmarks couvrant trois plateformes différentes (mobile, bureau et web), OS-Atlas démontre des améliorations significatives de performance par rapport aux modÚles de pointe précédents. Notre évaluation révÚle également des informations précieuses pour améliorer et étendre en continu les capacités agentiques des VLM open-source.