OMG-LLaVA: 画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を橋渡しするOMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and
Understanding
現在のユニバーサルセグメンテーション手法は、ピクセルレベルの画像および動画理解において強力な能力を示しています。しかし、それらには推論能力が欠けており、テキスト指示による制御ができません。一方、大規模な視覚-言語マルチモーダルモデルは、視覚に基づく会話と推論能力を備えていますが、ピクセルレベルの理解が不足しており、柔軟なユーザーインタラクションのための視覚的プロンプトを受け入れるのが困難です。本論文では、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいエレガントなフレームワーク、OMG-LLaVAを提案します。これは、様々な視覚的およびテキストのプロンプトを受け入れて、柔軟なユーザーインタラクションを可能にします。具体的には、ユニバーサルセグメンテーション手法を視覚エンコーダーとして使用し、画像情報、知覚事前情報、および視覚的プロンプトをLLMに提供される視覚トークンに統合します。LLMは、ユーザーのテキスト指示を理解し、視覚情報に基づいてテキスト応答とピクセルレベルのセグメンテーション結果を提供する役割を担います。知覚事前情報を画像特徴とより良く統合するために、知覚事前埋め込みを提案します。OMG-LLaVAは、単一のモデルで画像レベル、オブジェクトレベル、およびピクセルレベルの推論と理解を実現し、複数のベンチマークで専門手法の性能に匹敵またはそれを上回ります。各専門家をLLMで接続するのではなく、本手法は1つのエンコーダー、1つのデコーダー、および1つのLLMに対するエンドツーエンドのトレーニングを目指しています。コードとモデルは、さらなる研究のために公開されています。