Set-of-Mark PromptingはGPT-4Vの並外れた視覚的基盤能力を解き放つ
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
著者: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
要旨
本論文では、GPT-4Vなどの大規模マルチモーダルモデル(LMM)の視覚的基盤能力を引き出すための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案します。図1(右)に示すように、SAMなどの既存のインタラクティブセグメンテーションモデルを使用して、画像を異なる粒度レベルで領域に分割し、これらの領域にアルファベット数字、マスク、ボックスなどのマークを重ね合わせます。マークされた画像を入力として使用することで、GPT-4Vは視覚的基盤を必要とする質問に答えることができます。我々は、SoMの有効性を検証するために、幅広い細粒度視覚タスクおよびマルチモーダルタスクにおいて包括的な実証研究を行いました。例えば、我々の実験では、SoMを適用したGPT-4Vが、ゼロショット設定においてRefCOCOgでの最先端の完全微調整参照セグメンテーションモデルを上回ることを示しています。
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.