GLaMM: Pixelgebaseerd Groot Multimodaal Model
GLaMM: Pixel Grounding Large Multimodal Model
November 6, 2023
Auteurs: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) breiden Grote Taalmodellen uit naar het visuele domein. Eerste inspanningen voor LMMs gebruikten holistische afbeeldingen en tekstprompts om ongegronde tekstuele reacties te genereren. Zeer recentelijk zijn regioniveau-LMMs gebruikt om visueel gegronde reacties te genereren. Deze zijn echter beperkt tot het verwijzen naar slechts één objectcategorie tegelijk, vereisen dat gebruikers de regio's in de invoer specificeren, of kunnen geen dichte pixelgewijze objectverankering bieden. In dit werk presenteren we Grounding LMM (GLaMM), het eerste model dat natuurlijke taalreacties kan genereren die naadloos verweven zijn met bijbehorende objectsegmentatiemaskers. GLaMM verankert niet alleen objecten die in de gesprekken voorkomen, maar is ook flexibel genoeg om zowel tekstuele als optionele visuele prompts (regio van interesse) als invoer te accepteren. Hierdoor kunnen gebruikers op verschillende niveaus van granulariteit met het model interacteren, zowel in tekstuele als visuele domeinen. Vanwege het gebrek aan standaardbenchmarks voor de nieuwe setting van het genereren van visueel gegronde gedetailleerde gesprekken, introduceren we een uitgebreid evaluatieprotocol met onze samengestelde gegronde gesprekken. Onze voorgestelde Gegronde Gespreksgeneratie (GCG) taak vereist dicht gegronde concepten in natuurlijke scènes op grote schaal. Hiertoe stellen we een dicht geannoteerde Grounding-anything Dataset (GranD) voor, gebruikmakend van onze voorgestelde geautomatiseerde annotatiepijplijn die 7,5 miljoen unieke concepten omvat, gegrond in een totaal van 810 miljoen regio's die beschikbaar zijn met segmentatiemaskers. Naast GCG presteert GLaMM ook effectief op verschillende downstream taken, zoals verwijzende expressiesegmentatie, afbeelding- en regioniveau-beschrijvingen en visie-taalgesprekken. Projectpagina: https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision
domain. Initial efforts towards LMMs used holistic images and text prompts to
generate ungrounded textual responses. Very recently, region-level LMMs have
been used to generate visually grounded responses. However, they are limited to
only referring a single object category at a time, require users to specify the
regions in inputs, or cannot offer dense pixel-wise object grounding. In this
work, we present Grounding LMM (GLaMM), the first model that can generate
natural language responses seamlessly intertwined with corresponding object
segmentation masks. GLaMM not only grounds objects appearing in the
conversations but is flexible enough to accept both textual and optional visual
prompts (region of interest) as input. This empowers users to interact with the
model at various levels of granularity, both in textual and visual domains. Due
to the lack of standard benchmarks for the novel setting of generating visually
grounded detailed conversations, we introduce a comprehensive evaluation
protocol with our curated grounded conversations. Our proposed Grounded
Conversation Generation (GCG) task requires densely grounded concepts in
natural scenes at a large-scale. To this end, we propose a densely annotated
Grounding-anything Dataset (GranD) using our proposed automated annotation
pipeline that encompasses 7.5M unique concepts grounded in a total of 810M
regions available with segmentation masks. Besides GCG, GLaMM also performs
effectively on several downstream tasks e.g., referring expression
segmentation, image and region-level captioning and vision-language
conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.