テキスト豊かなビジュアル理解のためのWebページUIの活用
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
著者: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
要旨
テキスト豊富なビジュアル理解、つまり、密なテキストコンテンツが視覚情報と統合された環境を処理する能力は、多様なモーダル大規模言語モデル(MLLMs)が構造化された環境と効果的にやり取りするために重要です。この能力を向上させるために、我々は、テキストベースの大規模言語モデル(LLMs)を用いて、WebページのUIから一般的な多様な指示を合成することを提案します。直接的な視覚入力がないにもかかわらず、テキストベースのLLMsは、Webページのアクセシビリティツリーから構造化されたテキスト表現を処理することができます。これらの指示は、UIのスクリーンショットとペアになって、多様なモデルを訓練するために使用されます。我々は、MultiUIというデータセットを紹介します。このデータセットには、100万のウェブサイトから730万のサンプルが含まれており、多様な多様なタスクとUIレイアウトがカバーされています。MultiUIで訓練されたモデルは、Web UIタスクにおいてのみ優れており、VisualWebBenchで最大48%の改善を達成し、WebエージェントデータセットMind2Webにおいて行動の正確性が19.1%向上しています。さらに、これらのモデルは、Web UIタスクだけでなく、非Web UIタスクや文書理解、OCR、チャート解釈などの非UIドメインにも驚くほど汎用的に適用されます。これらの結果は、様々なシナリオでテキスト豊かなビジュアル理解を進化させるためにWeb UIデータが広範囲に適用可能であることを示しています。
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary