OS-ATLAS: Ein Grundlagen-Aktionsmodell für Generalist GUI-AgentenOS-ATLAS: A Foundation Action Model for Generalist GUI Agents
Bestehende Bemühungen beim Aufbau von GUI-Agenten stützen sich stark auf die Verfügbarkeit von robusten kommerziellen Vision-Sprach-Modellen (VLMs) wie GPT-4o und GeminiProVision. Praktiker zögern oft, Open-Source-VLMs zu verwenden, aufgrund ihrer signifikanten Leistungslücke im Vergleich zu ihren Closed-Source-Pendants, insbesondere bei der GUI-Verankerung und Out-Of-Distribution (OOD)-Szenarien. Um zukünftige Forschung in diesem Bereich zu erleichtern, haben wir OS-Atlas entwickelt - ein grundlegendes GUI-Aktionsmodell, das bei der GUI-Verankerung und OOD-Agentenaufgaben durch Innovationen in Daten und Modellierung hervorragende Leistungen erbringt. Wir haben erhebliche Ingenieuranstrengungen investiert, um ein Open-Source-Toolkit zur Synthese von GUI-Verankerungsdaten über mehrere Plattformen hinweg zu entwickeln, einschließlich Windows, Linux, MacOS, Android und dem Web. Unter Verwendung dieses Toolkits veröffentlichen wir das bisher größte Open-Source plattformübergreifende GUI-Verankerungskorpus, das über 13 Millionen GUI-Elemente enthält. Dieser Datensatz, kombiniert mit Innovationen im Modelltraining, bietet eine solide Grundlage für OS-Atlas, um GUI-Bildschirmfotos zu verstehen und auf nicht gesehene Schnittstellen zu verallgemeinern. Durch umfangreiche Evaluation über sechs Benchmarks, die drei verschiedene Plattformen (mobil, Desktop und Web) umfassen, zeigt OS-Atlas signifikante Leistungsverbesserungen gegenüber früheren State-of-the-Art-Modellen. Unsere Evaluation enthüllt auch wertvolle Erkenntnisse zur kontinuierlichen Verbesserung und Skalierung der agentischen Fähigkeiten von Open-Source-VLMs.