OS-ATLAS: 一般的な GUI エージェント向けの基盤行動モデル
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
著者: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
要旨
GUI エージェントの構築における既存の取り組みは、GPT-4o や GeminiProVision などの堅牢な商用 Vision-Language モデル(VLMs)の利用に大きく依存しています。実務家は、GUI のグラウンディングや分布外(OOD)シナリオにおいて、オープンソースの VLMs が閉鎖ソースの対応物に比べて著しい性能の遅れがあるため、これらを利用することをためらうことがよくあります。この領域における将来の研究を促進するために、私たちは OS-Atlas を開発しました - GUI グラウンディングや OOD エージェントタスクにおいて優れた基礎となる GUI アクションモデルで、データとモデリングの両方で革新を成し遂げています。私たちは、Windows、Linux、MacOS、Android、およびウェブを含む複数のプラットフォームで GUI グラウンディングデータを合成するためのオープンソースツールキットの開発に多大なエンジニアリング努力を投入してきました。このツールキットを活用して、私たちはこれまでで最大のオープンソースのクロスプラットフォーム GUI グラウンディングコーパスを公開し、1300万以上の GUI 要素を含んでいます。このデータセットは、モデルトレーニングの革新と組み合わせることで、OS-Atlas が GUI スクリーンショットを理解し、見慣れないインタフェースにも一般化できる堅固な基盤を提供します。モバイル、デスクトップ、ウェブの 3 つの異なるプラットフォームにまたがる 6 つのベンチマークでの包括的な評価を通じて、OS-Atlas は従来の最先端モデルに比べて著しい性能向上を示しています。私たちの評価は、オープンソースの VLMs のエージェント機能を継続的に向上させ、スケーリングするための貴重な洞察を明らかにしています。
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary