Set-of-Mark Prompting Ontketent Buitengewone Visuele Verankering in GPT-4V
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
Auteurs: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
Samenvatting
We presenteren Set-of-Mark (SoM), een nieuwe visuele promptingmethode, om de visuele grondingsmogelijkheden van grote multimodale modellen (LMMs), zoals GPT-4V, te ontketenen. Zoals geïllustreerd in Fig. 1 (rechts), maken we gebruik van kant-en-klare interactieve segmentatiemodellen, zoals SAM, om een afbeelding op te delen in regio's op verschillende niveaus van granulariteit, en overlappen we deze regio's met een set van markeringen, bijvoorbeeld alfanumerieke tekens, maskers, vakjes. Door de gemarkeerde afbeelding als invoer te gebruiken, kan GPT-4V vragen beantwoorden die visuele gronding vereisen. We voeren een uitgebreide empirische studie uit om de effectiviteit van SoM te valideren op een breed scala aan fijnmazige visuele en multimodale taken. Onze experimenten tonen bijvoorbeeld aan dat GPT-4V met SoM in een zero-shot setting de state-of-the-art volledig gefinetunede referentiesegmentatiemodel op RefCOCOg overtreft.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.