OS-ATLAS: 一般的な GUI エージェント向けの基盤行動モデルOS-ATLAS: A Foundation Action Model for Generalist GUI Agents
GUI エージェントの構築における既存の取り組みは、GPT-4o や GeminiProVision などの堅牢な商用 Vision-Language モデル(VLMs)の利用に大きく依存しています。実務家は、GUI のグラウンディングや分布外(OOD)シナリオにおいて、オープンソースの VLMs が閉鎖ソースの対応物に比べて著しい性能の遅れがあるため、これらを利用することをためらうことがよくあります。この領域における将来の研究を促進するために、私たちは OS-Atlas を開発しました - GUI グラウンディングや OOD エージェントタスクにおいて優れた基礎となる GUI アクションモデルで、データとモデリングの両方で革新を成し遂げています。私たちは、Windows、Linux、MacOS、Android、およびウェブを含む複数のプラットフォームで GUI グラウンディングデータを合成するためのオープンソースツールキットの開発に多大なエンジニアリング努力を投入してきました。このツールキットを活用して、私たちはこれまでで最大のオープンソースのクロスプラットフォーム GUI グラウンディングコーパスを公開し、1300万以上の GUI 要素を含んでいます。このデータセットは、モデルトレーニングの革新と組み合わせることで、OS-Atlas が GUI スクリーンショットを理解し、見慣れないインタフェースにも一般化できる堅固な基盤を提供します。モバイル、デスクトップ、ウェブの 3 つの異なるプラットフォームにまたがる 6 つのベンチマークでの包括的な評価を通じて、OS-Atlas は従来の最先端モデルに比べて著しい性能向上を示しています。私たちの評価は、オープンソースの VLMs のエージェント機能を継続的に向上させ、スケーリングするための貴重な洞察を明らかにしています。