ChatPaper.aiChatPaper

ScreenAI: UIとインフォグラフィック理解のための視覚言語モデル

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

February 7, 2024
著者: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI

要旨

スクリーンユーザーインターフェース(UI)とインフォグラフィックは、類似した視覚言語とデザイン原則を共有し、人間同士のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしています。本論文では、UIとインフォグラフィックの理解に特化した視覚言語モデルであるScreenAIを紹介します。私たちのモデルは、PaLIアーキテクチャを基盤とし、pix2structの柔軟なパッチング戦略を取り入れて改良されています。また、独自のデータセットの組み合わせで学習されています。この組み合わせの中核となるのは、モデルがUI要素の種類と位置を特定する必要がある新しいスクリーン注釈タスクです。これらのテキスト注釈を使用して、大規模言語モデルにスクリーンを説明し、質問応答(QA)、UIナビゲーション、要約のトレーニングデータセットを自動的に大規模に生成します。これらの設計選択の影響を実証するために、アブレーションスタディを実施しています。わずか50億パラメータのScreenAIは、UIおよびインフォグラフィックベースのタスク(Multi-page DocVQA、WebSRC、MoTIF、Widget Captioning)において新たな最先端の結果を達成し、類似サイズのモデルと比較して他のタスク(Chart QA、DocVQA、InfographicVQA)でも最高クラスの性能を発揮します。最後に、スクリーン注釈タスクに焦点を当てた1つのデータセットと、質問応答に焦点を当てた2つの新しいデータセットを公開します。
English
Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
PDF448December 15, 2024