GLaMM: Мультимодальная модель с привязкой к пикселям

Аннотация

Крупные мультимодальные модели (LMMs) расширяют возможности крупных языковых моделей на область зрения. Первые попытки создания LMMs использовали целостные изображения и текстовые запросы для генерации необоснованных текстовых ответов. Совсем недавно региональные LMMs стали применяться для генерации визуально обоснованных ответов. Однако они ограничены возможностью ссылаться только на одну категорию объектов за раз, требуют от пользователей указания регионов на входе или не могут предложить плотное пиксельное обоснование объектов. В данной работе мы представляем модель Grounding LMM (GLaMM), первую модель, способную генерировать естественные языковые ответы, плавно переплетенные с соответствующими масками сегментации объектов. GLaMM не только обосновывает объекты, появляющиеся в беседах, но и достаточно гибка, чтобы принимать как текстовые, так и опциональные визуальные запросы (область интереса) на входе. Это позволяет пользователям взаимодействовать с моделью на различных уровнях детализации как в текстовой, так и в визуальной областях. Из-за отсутствия стандартных тестов для новой задачи генерации визуально обоснованных детальных бесед, мы вводим комплексный протокол оценки с нашими курированными обоснованными беседами. Наша предложенная задача генерации обоснованных бесед (GCG) требует плотного обоснования концепций в естественных сценах в большом масштабе. Для этого мы предлагаем плотно аннотированный набор данных Grounding-anything Dataset (GranD), используя наш предложенный автоматизированный конвейер аннотации, который охватывает 7.5M уникальных концепций, обоснованных в общей сложности в 810M регионах, доступных с масками сегментации. Помимо GCG, GLaMM также эффективно выполняет несколько последующих задач, например, сегментацию выражений ссылок, генерацию подписей к изображениям и регионам, а также визуально-языковые беседы. Страница проекта: https://mbzuai-oryx.github.io/groundingLMM.

English

Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial efforts towards LMMs used holistic images and text prompts to generate ungrounded textual responses. Very recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring a single object category at a time, require users to specify the regions in inputs, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of generating visually grounded detailed conversations, we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed Grounded Conversation Generation (GCG) task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks e.g., referring expression segmentation, image and region-level captioning and vision-language conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.

GLaMM: Мультимодальная модель с привязкой к пикселям

GLaMM: Pixel Grounding Large Multimodal Model

Аннотация

Support