GLaMM: Мультимодальная модель с привязкой к пикселям
GLaMM: Pixel Grounding Large Multimodal Model
November 6, 2023
Авторы: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI
Аннотация
Крупные мультимодальные модели (LMMs) расширяют возможности крупных языковых моделей на область зрения. Первые попытки создания LMMs использовали целостные изображения и текстовые запросы для генерации необоснованных текстовых ответов. Совсем недавно региональные LMMs стали применяться для генерации визуально обоснованных ответов. Однако они ограничены возможностью ссылаться только на одну категорию объектов за раз, требуют от пользователей указания регионов на входе или не могут предложить плотное пиксельное обоснование объектов. В данной работе мы представляем модель Grounding LMM (GLaMM), первую модель, способную генерировать естественные языковые ответы, плавно переплетенные с соответствующими масками сегментации объектов. GLaMM не только обосновывает объекты, появляющиеся в беседах, но и достаточно гибка, чтобы принимать как текстовые, так и опциональные визуальные запросы (область интереса) на входе. Это позволяет пользователям взаимодействовать с моделью на различных уровнях детализации как в текстовой, так и в визуальной областях. Из-за отсутствия стандартных тестов для новой задачи генерации визуально обоснованных детальных бесед, мы вводим комплексный протокол оценки с нашими курированными обоснованными беседами. Наша предложенная задача генерации обоснованных бесед (GCG) требует плотного обоснования концепций в естественных сценах в большом масштабе. Для этого мы предлагаем плотно аннотированный набор данных Grounding-anything Dataset (GranD), используя наш предложенный автоматизированный конвейер аннотации, который охватывает 7.5M уникальных концепций, обоснованных в общей сложности в 810M регионах, доступных с масками сегментации. Помимо GCG, GLaMM также эффективно выполняет несколько последующих задач, например, сегментацию выражений ссылок, генерацию подписей к изображениям и регионам, а также визуально-языковые беседы. Страница проекта: https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision
domain. Initial efforts towards LMMs used holistic images and text prompts to
generate ungrounded textual responses. Very recently, region-level LMMs have
been used to generate visually grounded responses. However, they are limited to
only referring a single object category at a time, require users to specify the
regions in inputs, or cannot offer dense pixel-wise object grounding. In this
work, we present Grounding LMM (GLaMM), the first model that can generate
natural language responses seamlessly intertwined with corresponding object
segmentation masks. GLaMM not only grounds objects appearing in the
conversations but is flexible enough to accept both textual and optional visual
prompts (region of interest) as input. This empowers users to interact with the
model at various levels of granularity, both in textual and visual domains. Due
to the lack of standard benchmarks for the novel setting of generating visually
grounded detailed conversations, we introduce a comprehensive evaluation
protocol with our curated grounded conversations. Our proposed Grounded
Conversation Generation (GCG) task requires densely grounded concepts in
natural scenes at a large-scale. To this end, we propose a densely annotated
Grounding-anything Dataset (GranD) using our proposed automated annotation
pipeline that encompasses 7.5M unique concepts grounded in a total of 810M
regions available with segmentation masks. Besides GCG, GLaMM also performs
effectively on several downstream tasks e.g., referring expression
segmentation, image and region-level captioning and vision-language
conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.