El enfoque de indicación por conjunto de marcas desbloquea una capacidad extraordinaria de anclaje visual en GPT-4V.
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
Autores: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
Resumen
Presentamos Set-of-Mark (SoM), un nuevo método de indicación visual para liberar las capacidades de anclaje visual de los modelos multimodales grandes (LMMs), como GPT-4V. Como se ilustra en la Fig. 1 (derecha), utilizamos modelos de segmentación interactiva disponibles comercialmente, como SAM, para dividir una imagen en regiones con diferentes niveles de granularidad, y superponemos estas regiones con un conjunto de marcas, por ejemplo, alfanuméricos, máscaras, cuadros. Utilizando la imagen marcada como entrada, GPT-4V puede responder preguntas que requieren anclaje visual. Realizamos un estudio empírico exhaustivo para validar la efectividad de SoM en una amplia gama de tareas visuales y multimodales de grano fino. Por ejemplo, nuestros experimentos muestran que GPT-4V con SoM supera al modelo de segmentación referencial completamente ajustado más avanzado en RefCOCOg en un entorno de cero disparos.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.