ShowUI: GUIビジュアルエージェントのための1つのビジョン言語行動モデルShowUI: One Vision-Language-Action Model for GUI Visual Agent
グラフィカルユーザーインターフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな可能性を秘めています。ほとんどのエージェントは言語ベースであり、テキスト豊富なメタ情報(例:HTMLやアクセシビリティツリー)を持つクローズドソースAPIに依存していますが、人間と同様にUIビジュアルを認識する能力に限界があり、GUIビジュアルエージェントの必要性が浮き彫りになっています。本研究では、デジタル世界においてビジョン-言語-アクションモデルであるShowUIを開発しました。このモデルには以下の革新が特徴として組み込まれています:(i) UIに誘導されたビジュアルトークン選択により、スクリーンショットをUIに接続されたグラフとして定式化し、冗長な関係を適応的に特定し、自己注意ブロック中のトークン選択の基準として機能します;(ii) ビジョン-言語-アクションストリーミングを交互に行うことで、GUIタスク内の多様なニーズを柔軟に統合し、ナビゲーションにおけるビジュアルアクション履歴の効果的な管理を可能にし、各スクリーンショットごとにマルチターンのクエリ-アクションシーケンスをペアリングしてトレーニング効率を向上させます;(iii) 慎重なデータキュレーションと再サンプリング戦略を用いた小規模で高品質なGUI指示従属データセット。これらのコンポーネントを備えたShowUIは、256Kのデータを使用する軽量な2Bモデルで、ゼロショットスクリーンショットグラウンディングにおいて強力な75.1%の精度を達成しています。UIに誘導されたトークン選択は、トレーニング中に冗長なビジュアルトークンの33%を削減し、パフォーマンスを1.4倍高速化しています。Web Mind2Web、モバイルAITW、オンラインMiniWob環境を横断するナビゲーション実験は、当社のモデルの効果と潜在性をさらに強調しています。モデルはhttps://github.com/showlab/ShowUIで入手可能です。