Set-of-Mark-Prompting entfesselt außergewöhnliche visuelle Verankerung in GPT-4V
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
October 17, 2023
Autoren: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI
Zusammenfassung
Wir stellen Set-of-Mark (SoM) vor, eine neue Methode zur visuellen Prompting, um die visuelle Verankerungsfähigkeit großer multimodaler Modelle (LMMs) wie GPT-4V freizusetzen. Wie in Abb. 1 (rechts) dargestellt, verwenden wir verfügbare interaktive Segmentierungsmodelle, wie SAM, um ein Bild in Regionen mit unterschiedlichen Granularitätsstufen zu unterteilen und diese Regionen mit einer Reihe von Markierungen, z. B. alphanumerischen Zeichen, Masken oder Rahmen, zu überlagern. Mit dem markierten Bild als Eingabe kann GPT-4V Fragen beantworten, die eine visuelle Verankerung erfordern. Wir führen eine umfassende empirische Studie durch, um die Wirksamkeit von SoM bei einer Vielzahl von feingranularen visuellen und multimodalen Aufgaben zu validieren. Unsere Experimente zeigen beispielsweise, dass GPT-4V mit SoM in einer Zero-Shot-Einstellung das state-of-the-art, vollständig feinabgestimmte Referenzsegmentierungsmodell auf RefCOCOg übertrifft.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.