ChatPaper.aiChatPaper

OS-ATLAS: 一般的な GUI エージェント向けの基盤行動モデル

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

October 30, 2024
著者: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI

要旨

GUI エージェントの構築における既存の取り組みは、GPT-4o や GeminiProVision などの堅牢な商用 Vision-Language モデル(VLMs)の利用に大きく依存しています。実務家は、GUI のグラウンディングや分布外(OOD)シナリオにおいて、オープンソースの VLMs が閉鎖ソースの対応物に比べて著しい性能の遅れがあるため、これらを利用することをためらうことがよくあります。この領域における将来の研究を促進するために、私たちは OS-Atlas を開発しました - GUI グラウンディングや OOD エージェントタスクにおいて優れた基礎となる GUI アクションモデルで、データとモデリングの両方で革新を成し遂げています。私たちは、Windows、Linux、MacOS、Android、およびウェブを含む複数のプラットフォームで GUI グラウンディングデータを合成するためのオープンソースツールキットの開発に多大なエンジニアリング努力を投入してきました。このツールキットを活用して、私たちはこれまでで最大のオープンソースのクロスプラットフォーム GUI グラウンディングコーパスを公開し、1300万以上の GUI 要素を含んでいます。このデータセットは、モデルトレーニングの革新と組み合わせることで、OS-Atlas が GUI スクリーンショットを理解し、見慣れないインタフェースにも一般化できる堅固な基盤を提供します。モバイル、デスクトップ、ウェブの 3 つの異なるプラットフォームにまたがる 6 つのベンチマークでの包括的な評価を通じて、OS-Atlas は従来の最先端モデルに比べて著しい性能向上を示しています。私たちの評価は、オープンソースの VLMs のエージェント機能を継続的に向上させ、スケーリングするための貴重な洞察を明らかにしています。
English
Existing efforts in building GUI agents heavily rely on the availability of robust commercial Vision-Language Models (VLMs) such as GPT-4o and GeminiProVision. Practitioners are often reluctant to use open-source VLMs due to their significant performance lag compared to their closed-source counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD) scenarios. To facilitate future research in this area, we developed OS-Atlas - a foundational GUI action model that excels at GUI grounding and OOD agentic tasks through innovations in both data and modeling. We have invested significant engineering effort in developing an open-source toolkit for synthesizing GUI grounding data across multiple platforms, including Windows, Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing the largest open-source cross-platform GUI grounding corpus to date, which contains over 13 million GUI elements. This dataset, combined with innovations in model training, provides a solid foundation for OS-Atlas to understand GUI screenshots and generalize to unseen interfaces. Through extensive evaluation across six benchmarks spanning three different platforms (mobile, desktop, and web), OS-Atlas demonstrates significant performance improvements over previous state-of-the-art models. Our evaluation also uncovers valuable insights into continuously improving and scaling the agentic capabilities of open-source VLMs.

Summary

AI-Generated Summary

PDF513November 13, 2024