純粋な視覚ベースのGUIエージェントのためのOmniParser
OmniParser for Pure Vision Based GUI Agent
August 1, 2024
著者: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
cs.AI
要旨
大規模な視覚言語モデルの最近の成功は、ユーザーインターフェース上で動作するエージェントシステムを推進する上で大きな可能性を示しています。しかし、GPT-4Vのようなマルチモーダルモデルが、異なるアプリケーションや複数のオペレーティングシステム上で汎用エージェントとして持つ力は、以下の2点を満たす堅牢なスクリーン解析技術の欠如により、大きく過小評価されていると私たちは主張します:1) ユーザーインターフェース内の操作可能なアイコンを確実に識別すること、2) スクリーンショット内の様々な要素の意味を理解し、意図されたアクションを画面上の対応する領域に正確に関連付けること。これらのギャップを埋めるため、私たちはOmniParserを導入しました。これは、ユーザーインターフェースのスクリーンショットを構造化された要素に解析する包括的な手法であり、GPT-4Vがインターフェースの対応する領域に正確に基づいたアクションを生成する能力を大幅に向上させます。まず、人気のあるウェブページを使用して操作可能なアイコン検出データセットとアイコン記述データセットをキュレーションしました。これらのデータセットは、画面上の操作可能な領域を解析するための検出モデルと、検出された要素の機能的意味を抽出するためのキャプションモデルという専門モデルのファインチューニングに利用されました。OmniParserは、ScreenSpotベンチマークにおけるGPT-4Vのパフォーマンスを大幅に向上させました。また、Mind2WebおよびAITWベンチマークでは、スクリーンショットのみを入力とするOmniParserが、スクリーンショット以外の追加情報を必要とするGPT-4Vベースラインを上回りました。
English
The recent success of large vision language models shows great potential in
driving the agent system operating on user interfaces. However, we argue that
the power multimodal models like GPT-4V as a general agent on multiple
operating systems across different applications is largely underestimated due
to the lack of a robust screen parsing technique capable of: 1) reliably
identifying interactable icons within the user interface, and 2) understanding
the semantics of various elements in a screenshot and accurately associate the
intended action with the corresponding region on the screen. To fill these
gaps, we introduce OmniParser, a comprehensive method for parsing user
interface screenshots into structured elements, which significantly enhances
the ability of GPT-4V to generate actions that can be accurately grounded in
the corresponding regions of the interface. We first curated an interactable
icon detection dataset using popular webpages and an icon description dataset.
These datasets were utilized to fine-tune specialized models: a detection model
to parse interactable regions on the screen and a caption model to extract the
functional semantics of the detected elements. OmniParser
significantly improves GPT-4V's performance on ScreenSpot benchmark. And on
Mind2Web and AITW benchmark, OmniParser with screenshot only input
outperforms the GPT-4V baselines requiring additional information outside of
screenshot.Summary
AI-Generated Summary