O Prompting de Conjunto de Marcas Libera uma Extraordinária Fundamentação Visual no GPT-4V
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
Autores: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
Resumo
Apresentamos o Set-of-Mark (SoM), um novo método de prompt visual, para liberar as habilidades de ancoragem visual de modelos multimodais de grande escala (LMMs), como o GPT-4V. Como ilustrado na Fig. 1 (direita), empregamos modelos de segmentação interativa prontos para uso, como o SAM, para dividir uma imagem em regiões em diferentes níveis de granularidade e sobrepor essas regiões com um conjunto de marcas, por exemplo, alfanuméricos, máscaras, caixas. Utilizando a imagem marcada como entrada, o GPT-4V pode responder a perguntas que exigem ancoragem visual. Realizamos um estudo empírico abrangente para validar a eficácia do SoM em uma ampla gama de tarefas visuais e multimodais de granularidade fina. Por exemplo, nossos experimentos mostram que o GPT-4V com SoM supera o modelo de segmentação referencial totalmente ajustado de última geração no RefCOCOg em um cenário zero-shot.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.