ChatPaper.aiChatPaper

Метод Set-of-Mark Prompting раскрывает необычайные возможности визуального заземления в GPT-4V.

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

October 17, 2023
Авторы: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
cs.AI

Аннотация

Мы представляем метод визуального подсказывания Set-of-Mark (SoM), который позволяет раскрыть способности крупных мультимодальных моделей (LMMs), таких как GPT-4V, к визуальному заземлению. Как показано на рис. 1 (справа), мы используем готовые модели интерактивной сегментации, такие как SAM, чтобы разделить изображение на области с различной степенью детализации и наложить на эти области набор меток, например, буквенно-цифровые обозначения, маски или рамки. Используя размеченное изображение в качестве входных данных, GPT-4V может отвечать на вопросы, требующие визуального заземления. Мы проводим всестороннее эмпирическое исследование, чтобы подтвердить эффективность SoM на широком спектре задач, связанных с детальным анализом изображений и мультимодальными задачами. Например, наши эксперименты показывают, что GPT-4V с использованием SoM превосходит современную полностью дообученную модель сегментации с привязкой на наборе данных RefCOCOg в условиях zero-shot.
English
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring segmentation model on RefCOCOg in a zero-shot setting.
PDF284December 15, 2024