GLaMM: Modelo Multimodal de Grande Escala com Ancoragem em Pixels
GLaMM: Pixel Grounding Large Multimodal Model
November 6, 2023
Autores: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI
Resumo
Modelos Multimodais de Grande Escala (LMMs) estendem os Modelos de Linguagem de Grande Escala para o domínio visual. Os esforços iniciais em direção aos LMMs utilizaram imagens holísticas e prompts de texto para gerar respostas textuais não fundamentadas. Recentemente, LMMs em nível de região têm sido usados para gerar respostas visualmente fundamentadas. No entanto, eles estão limitados a referir apenas uma única categoria de objeto por vez, exigem que os usuários especifiquem as regiões nas entradas ou não conseguem oferecer uma fundamentação densa de objetos em nível de pixel. Neste trabalho, apresentamos o Grounding LMM (GLaMM), o primeiro modelo capaz de gerar respostas em linguagem natural entrelaçadas com máscaras de segmentação de objetos correspondentes. O GLaMM não apenas fundamenta objetos que aparecem nas conversas, mas também é flexível o suficiente para aceitar prompts textuais e visuais opcionais (região de interesse) como entrada. Isso capacita os usuários a interagir com o modelo em vários níveis de granularidade, tanto no domínio textual quanto visual. Devido à falta de benchmarks padrão para o novo cenário de geração de conversas detalhadas visualmente fundamentadas, introduzimos um protocolo de avaliação abrangente com nossas conversas fundamentadas curadas. Nossa tarefa proposta de Geração de Conversas Fundamentadas (GCG) exige conceitos densamente fundamentados em cenas naturais em grande escala. Para isso, propomos um conjunto de dados densamente anotado, o Grounding-anything Dataset (GranD), utilizando nosso pipeline de anotação automatizada proposto, que abrange 7,5 milhões de conceitos únicos fundamentados em um total de 810 milhões de regiões disponíveis com máscaras de segmentação. Além da GCG, o GLaMM também se desempenha efetivamente em várias tarefas subsequentes, como segmentação de expressões referenciais, legendagem de imagens e em nível de região, e conversas visão-linguagem. Página do Projeto: https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision
domain. Initial efforts towards LMMs used holistic images and text prompts to
generate ungrounded textual responses. Very recently, region-level LMMs have
been used to generate visually grounded responses. However, they are limited to
only referring a single object category at a time, require users to specify the
regions in inputs, or cannot offer dense pixel-wise object grounding. In this
work, we present Grounding LMM (GLaMM), the first model that can generate
natural language responses seamlessly intertwined with corresponding object
segmentation masks. GLaMM not only grounds objects appearing in the
conversations but is flexible enough to accept both textual and optional visual
prompts (region of interest) as input. This empowers users to interact with the
model at various levels of granularity, both in textual and visual domains. Due
to the lack of standard benchmarks for the novel setting of generating visually
grounded detailed conversations, we introduce a comprehensive evaluation
protocol with our curated grounded conversations. Our proposed Grounded
Conversation Generation (GCG) task requires densely grounded concepts in
natural scenes at a large-scale. To this end, we propose a densely annotated
Grounding-anything Dataset (GranD) using our proposed automated annotation
pipeline that encompasses 7.5M unique concepts grounded in a total of 810M
regions available with segmentation masks. Besides GCG, GLaMM also performs
effectively on several downstream tasks e.g., referring expression
segmentation, image and region-level captioning and vision-language
conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.