ChatPaper.aiChatPaper

GLaMM : Modèle Multimodal de Grande Taille avec Ancrage Pixel

GLaMM: Pixel Grounding Large Multimodal Model

November 6, 2023
Auteurs: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI

Résumé

Les modèles multimodaux de grande taille (LMMs) étendent les modèles de langage de grande taille au domaine visuel. Les premières initiatives vers les LMMs utilisaient des images holistiques et des invites textuelles pour générer des réponses textuelles non ancrées. Très récemment, des LMMs au niveau des régions ont été utilisés pour générer des réponses visuellement ancrées. Cependant, ils se limitent à ne référencer qu'une seule catégorie d'objet à la fois, nécessitent que les utilisateurs spécifient les régions en entrée, ou ne peuvent pas offrir un ancrage dense au niveau des pixels. Dans ce travail, nous présentons Grounding LMM (GLaMM), le premier modèle capable de générer des réponses en langage naturel entrelacées de manière fluide avec les masques de segmentation d'objets correspondants. GLaMM non seulement ancre les objets apparaissant dans les conversations, mais est également suffisamment flexible pour accepter à la fois des invites textuelles et des invites visuelles optionnelles (région d'intérêt) en entrée. Cela permet aux utilisateurs d'interagir avec le modèle à différents niveaux de granularité, tant dans le domaine textuel que visuel. En raison de l'absence de benchmarks standard pour le nouveau cadre de génération de conversations détaillées visuellement ancrées, nous introduisons un protocole d'évaluation complet avec nos conversations ancrées soigneusement sélectionnées. Notre tâche proposée de Génération de Conversations Ancrées (GCG) nécessite des concepts densément ancrés dans des scènes naturelles à grande échelle. À cette fin, nous proposons un ensemble de données densément annoté, le Grounding-anything Dataset (GranD), en utilisant notre pipeline d'annotation automatisé proposé, qui englobe 7,5 millions de concepts uniques ancrés dans un total de 810 millions de régions disponibles avec des masques de segmentation. Outre la GCG, GLaMM performe également efficacement sur plusieurs tâches en aval, telles que la segmentation d'expressions référentielles, la description d'images et de régions, et les conversations vision-langage. Page du projet : https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial efforts towards LMMs used holistic images and text prompts to generate ungrounded textual responses. Very recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring a single object category at a time, require users to specify the regions in inputs, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of generating visually grounded detailed conversations, we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed Grounded Conversation Generation (GCG) task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks e.g., referring expression segmentation, image and region-level captioning and vision-language conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.
PDF363December 15, 2024