GLaMM: Modello Multimodale di Grande Scala con Ancoraggio a Livello di Pixel

Abstract

I Large Multimodal Models (LMM) estendono i Large Language Models al dominio visivo. I primi sforzi verso gli LMM utilizzavano immagini olistiche e prompt testuali per generare risposte testuali non ancorate visivamente. Molto recentemente, gli LMM a livello di regione sono stati utilizzati per generare risposte visivamente ancorate. Tuttavia, sono limitati a riferirsi a una sola categoria di oggetti alla volta, richiedono che gli utenti specifichino le regioni negli input o non possono offrire un ancoraggio denso a livello di pixel. In questo lavoro, presentiamo Grounding LMM (GLaMM), il primo modello in grado di generare risposte in linguaggio naturale perfettamente intrecciate con le corrispondenti maschere di segmentazione degli oggetti. GLaMM non solo ancoraggio visivamente gli oggetti che compaiono nelle conversazioni, ma è anche abbastanza flessibile da accettare sia prompt testuali che opzionali prompt visivi (regioni di interesse) come input. Ciò consente agli utenti di interagire con il modello a vari livelli di granularità, sia nel dominio testuale che visivo. A causa della mancanza di benchmark standard per la nuova impostazione di generare conversazioni dettagliate e visivamente ancorate, introduciamo un protocollo di valutazione completo con le nostre conversazioni ancorate curate. Il nostro compito proposto di Generazione di Conversazioni Ancorate (GCG) richiede concetti densamente ancorati in scene naturali su larga scala. A tal fine, proponiamo un dataset densamente annotato, Grounding-anything Dataset (GranD), utilizzando la nostra pipeline di annotazione automatica proposta che comprende 7,5 milioni di concetti unici ancorati in un totale di 810 milioni di regioni disponibili con maschere di segmentazione. Oltre al GCG, GLaMM si dimostra efficace anche in diversi compiti downstream, come la segmentazione delle espressioni di riferimento, la descrizione di immagini e regioni e le conversazioni visivo-linguistiche. Pagina del progetto: https://mbzuai-oryx.github.io/groundingLMM.

English

Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial efforts towards LMMs used holistic images and text prompts to generate ungrounded textual responses. Very recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring a single object category at a time, require users to specify the regions in inputs, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of generating visually grounded detailed conversations, we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed Grounded Conversation Generation (GCG) task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks e.g., referring expression segmentation, image and region-level captioning and vision-language conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.

GLaMM: Modello Multimodale di Grande Scala con Ancoraggio a Livello di Pixel

GLaMM: Pixel Grounding Large Multimodal Model

Abstract

Support