Le Prompting Set-of-Mark Libère un Ancrage Visuel Extraordinaire dans GPT-4V
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
Auteurs: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
Résumé
Nous présentons Set-of-Mark (SoM), une nouvelle méthode d'invite visuelle visant à libérer les capacités d'ancrage visuel des grands modèles multimodaux (LMMs), tels que GPT-4V. Comme illustré dans la Fig. 1 (à droite), nous utilisons des modèles de segmentation interactive prêts à l'emploi, comme SAM, pour partitionner une image en régions à différents niveaux de granularité, et superposer ces régions avec un ensemble de marques, par exemple des alphanumériques, des masques ou des boîtes. En utilisant l'image marquée comme entrée, GPT-4V peut répondre aux questions nécessitant un ancrage visuel. Nous menons une étude empirique approfondie pour valider l'efficacité de SoM sur une large gamme de tâches visuelles fines et multimodales. Par exemple, nos expériences montrent que GPT-4V avec SoM surpasse le modèle de segmentation référentielle entièrement affiné de pointe sur RefCOCOg dans un cadre zero-shot.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.