視覚的常識モデルのための局所化された記号的知識蒸留
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
著者: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
要旨
指示追従型の視覚言語(VL)モデルは、ゼロショット設定で幅広いマルチモーダルタスクをサポートする柔軟なインターフェースを提供します。しかし、画像全体を操作するインターフェースでは、ユーザーが画像内の特定の領域を「指し示し」アクセスすることを直接的に可能にしません。この機能は、参照に基づいたVLベンチマークをサポートするだけでなく、画像内での精密な推論を必要とする実用的なアプリケーションにおいても重要です。我々は、ユーザーが(複数の)領域を入力として指定できる「局所化された視覚的常識モデル」を構築しました。このモデルは、大規模言語モデル(LLM)から局所的な常識知識をサンプリングすることで学習されます。具体的には、VLモデルのセットによって自動生成されたグローバルな文字通りの画像記述とローカルな文字通りの領域記述を基に、LLMに常識知識を収集するよう促します。高品質な例を選択するために別途訓練された批評モデルを用いることで、局所化された常識コーパスでの学習が、参照を入力とするインターフェースをサポートするために既存のVLモデルを蒸留することに成功することを発見しました。ゼロショット設定での実験結果と人間による評価は、生成された参照表現をLLMに渡すベースラインと比較して、我々の蒸留手法がより精密な推論を行うVLモデルを実現することを示しています。
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.