Ferret-UI: マルチモーダルLLMを用いたモバイルUIの基盤的理解Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
近年、マルチモーダル大規模言語モデル(MLLM)の進展は目覚ましいものがあります。しかし、これらの汎用領域のMLLMは、ユーザーインターフェース(UI)画面を効果的に理解し、対話する能力においてしばしば不足が見られます。本論文では、モバイルUI画面の理解を強化するために設計された新しいMLLMであるFerret-UIを紹介します。このモデルは、参照、接地、推論の能力を備えています。UI画面は通常、自然画像よりも縦横比が長く、興味対象のオブジェクト(例:アイコン、テキスト)が小さいため、Ferretに「任意解像度」を追加して詳細を拡大し、視覚的特徴を強化します。具体的には、各画面を元の縦横比に基づいて2つのサブ画像に分割します(つまり、縦画面の場合は水平分割、横画面の場合は垂直分割)。両方のサブ画像は別々にエンコードされ、LLMに送られます。私たちは、アイコン認識、テキスト検索、ウィジェットリスト作成などの基本的なUIタスクから広範なトレーニングサンプルを慎重に収集します。これらのサンプルは、正確な参照と接地を容易にするために、領域アノテーションを伴う指示追従形式でフォーマットされています。モデルの推論能力をさらに高めるために、詳細な説明、認識/対話会話、機能推論を含む高度なタスクのデータセットを編纂します。厳選されたデータセットでトレーニングを行った後、Ferret-UIはUI画面の優れた理解力と、オープンエンドの指示を実行する能力を示します。モデル評価のために、前述のすべてのタスクを含む包括的なベンチマークを確立します。Ferret-UIは、ほとんどのオープンソースUI MLLMを凌駕するだけでなく、すべての基本的なUIタスクにおいてGPT-4Vをも上回ります。