GLaMM: Pixel-basiertes großes multimodales Modell
GLaMM: Pixel Grounding Large Multimodal Model
November 6, 2023
Autoren: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI
Zusammenfassung
Große Multimodale Modelle (LMMs) erweitern Große Sprachmodelle auf den visuellen Bereich. Erste Ansätze für LMMs nutzten ganzheitliche Bilder und Textprompts, um unverankerte textuelle Antworten zu generieren. Sehr kürzlich wurden regionenbasierte LMMs verwendet, um visuell verankerte Antworten zu erzeugen. Allerdings sind sie darauf beschränkt, jeweils nur auf eine einzelne Objektkategorie zu verweisen, erfordern, dass Benutzer die Regionen in den Eingaben spezifizieren, oder können keine dichte pixelweise Objektverankerung bieten. In dieser Arbeit präsentieren wir Grounding LMM (GLaMM), das erste Modell, das natürliche Sprachantworten nahtlos mit entsprechenden Objektsegmentierungsmasken verknüpfen kann. GLaMM verankert nicht nur Objekte, die in den Konversationen auftauchen, sondern ist flexibel genug, um sowohl textuelle als auch optionale visuelle Prompts (Region of Interest) als Eingabe zu akzeptieren. Dies befähigt Benutzer, mit dem Modell auf verschiedenen Granularitätsebenen sowohl im textuellen als auch im visuellen Bereich zu interagieren. Aufgrund des Mangels an Standard-Benchmarks für die neuartige Aufgabe der Generierung visuell verankerter detaillierter Konversationen führen wir ein umfassendes Evaluationsprotokoll mit unseren kuratierten verankerten Konversationen ein. Unsere vorgeschlagene Aufgabe der Grounded Conversation Generation (GCG) erfordert dicht verankerte Konzepte in natürlichen Szenen in großem Maßstab. Zu diesem Zweck schlagen wir einen dicht annotierten Grounding-anything-Datensatz (GranD) vor, der mit unserem vorgeschlagenen automatisierten Annotationspipeline erstellt wurde und 7,5M einzigartige Konzepte umfasst, die in insgesamt 810M Regionen mit Segmentierungsmasken verankert sind. Neben GCG performt GLaMM auch effektiv in mehreren Downstream-Aufgaben, z.B. Referenzausdruckssegmentierung, Bild- und Regionen-beschriftung sowie Vision-Sprache-Konversationen. Projektseite: https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision
domain. Initial efforts towards LMMs used holistic images and text prompts to
generate ungrounded textual responses. Very recently, region-level LMMs have
been used to generate visually grounded responses. However, they are limited to
only referring a single object category at a time, require users to specify the
regions in inputs, or cannot offer dense pixel-wise object grounding. In this
work, we present Grounding LMM (GLaMM), the first model that can generate
natural language responses seamlessly intertwined with corresponding object
segmentation masks. GLaMM not only grounds objects appearing in the
conversations but is flexible enough to accept both textual and optional visual
prompts (region of interest) as input. This empowers users to interact with the
model at various levels of granularity, both in textual and visual domains. Due
to the lack of standard benchmarks for the novel setting of generating visually
grounded detailed conversations, we introduce a comprehensive evaluation
protocol with our curated grounded conversations. Our proposed Grounded
Conversation Generation (GCG) task requires densely grounded concepts in
natural scenes at a large-scale. To this end, we propose a densely annotated
Grounding-anything Dataset (GranD) using our proposed automated annotation
pipeline that encompasses 7.5M unique concepts grounded in a total of 810M
regions available with segmentation masks. Besides GCG, GLaMM also performs
effectively on several downstream tasks e.g., referring expression
segmentation, image and region-level captioning and vision-language
conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.