Set-of-Mark Prompting Ontketent Buitengewone Visuele Verankering in GPT-4V

Samenvatting

We presenteren Set-of-Mark (SoM), een nieuwe visuele promptingmethode, om de visuele grondingsmogelijkheden van grote multimodale modellen (LMMs), zoals GPT-4V, te ontketenen. Zoals geïllustreerd in Fig. 1 (rechts), maken we gebruik van kant-en-klare interactieve segmentatiemodellen, zoals SAM, om een afbeelding op te delen in regio's op verschillende niveaus van granulariteit, en overlappen we deze regio's met een set van markeringen, bijvoorbeeld alfanumerieke tekens, maskers, vakjes. Door de gemarkeerde afbeelding als invoer te gebruiken, kan GPT-4V vragen beantwoorden die visuele gronding vereisen. We voeren een uitgebreide empirische studie uit om de effectiviteit van SoM te valideren op een breed scala aan fijnmazige visuele en multimodale taken. Onze experimenten tonen bijvoorbeeld aan dat GPT-4V met SoM in een zero-shot setting de state-of-the-art volledig gefinetunede referentiesegmentatiemodel op RefCOCOg overtreft.

English

We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring segmentation model on RefCOCOg in a zero-shot setting.

Set-of-Mark Prompting Ontketent Buitengewone Visuele Verankering in GPT-4V

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

Samenvatting

Support