ChatPaper.aiChatPaper

Set-of-Mark-Prompting entfesselt außergewöhnliche visuelle Verankerung in GPT-4V

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

October 17, 2023
Autoren: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI

Zusammenfassung

Wir stellen Set-of-Mark (SoM) vor, eine neue Methode zur visuellen Prompting, um die visuelle Verankerungsfähigkeit großer multimodaler Modelle (LMMs) wie GPT-4V freizusetzen. Wie in Abb. 1 (rechts) dargestellt, verwenden wir verfügbare interaktive Segmentierungsmodelle, wie SAM, um ein Bild in Regionen mit unterschiedlichen Granularitätsstufen zu unterteilen und diese Regionen mit einer Reihe von Markierungen, z. B. alphanumerischen Zeichen, Masken oder Rahmen, zu überlagern. Mit dem markierten Bild als Eingabe kann GPT-4V Fragen beantworten, die eine visuelle Verankerung erfordern. Wir führen eine umfassende empirische Studie durch, um die Wirksamkeit von SoM bei einer Vielzahl von feingranularen visuellen und multimodalen Aufgaben zu validieren. Unsere Experimente zeigen beispielsweise, dass GPT-4V mit SoM in einer Zero-Shot-Einstellung das state-of-the-art, vollständig feinabgestimmte Referenzsegmentierungsmodell auf RefCOCOg übertrifft.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring segmentation model on RefCOCOg in a zero-shot setting.
PDF284December 15, 2024