Il Set-of-Mark Prompting Rivela Capacità Straordinarie di Grounding Visivo in GPT-4V
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
Autori: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
Abstract
Presentiamo Set-of-Mark (SoM), un nuovo metodo di prompting visivo, per sfruttare le capacità di grounding visivo dei grandi modelli multimodali (LMMs), come GPT-4V. Come illustrato nella Fig. 1 (a destra), utilizziamo modelli di segmentazione interattiva già disponibili, come SAM, per suddividere un'immagine in regioni a diversi livelli di granularità, e sovrapporre queste regioni con un insieme di marcatori, ad esempio alfanumerici, maschere o riquadri. Utilizzando l'immagine marcata come input, GPT-4V può rispondere a domande che richiedono grounding visivo. Condurremo uno studio empirico completo per validare l'efficacia di SoM su un'ampia gamma di task visivi e multimodali di dettaglio. Ad esempio, i nostri esperimenti dimostrano che GPT-4V con SoM supera il modello di segmentazione riferita completamente addestrato allo stato dell'arte su RefCOCOg in un contesto zero-shot.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.