ChatPaper.aiChatPaper

GLaMM: Modelo Multimodal Grande con Anclaje a Píxeles

GLaMM: Pixel Grounding Large Multimodal Model

November 6, 2023
Autores: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI

Resumen

Los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) extienden los Modelos de Lenguaje de Gran Escala al dominio visual. Los primeros esfuerzos hacia los LMMs utilizaron imágenes holísticas y textos de entrada para generar respuestas textuales no fundamentadas. Muy recientemente, los LMMs a nivel de región han sido utilizados para generar respuestas visualmente fundamentadas. Sin embargo, están limitados a referirse a una sola categoría de objeto a la vez, requieren que los usuarios especifiquen las regiones en las entradas, o no pueden ofrecer una fundamentación densa de objetos a nivel de píxeles. En este trabajo, presentamos el Modelo Multimodal de Gran Escala con Fundamentación (GLaMM), el primer modelo que puede generar respuestas en lenguaje natural entrelazadas de manera fluida con las máscaras de segmentación de objetos correspondientes. GLaMM no solo fundamenta los objetos que aparecen en las conversaciones, sino que también es lo suficientemente flexible para aceptar tanto textos de entrada como indicaciones visuales opcionales (región de interés) como entrada. Esto permite a los usuarios interactuar con el modelo en varios niveles de granularidad, tanto en el dominio textual como en el visual. Debido a la falta de puntos de referencia estándar para el nuevo escenario de generar conversaciones detalladas visualmente fundamentadas, introducimos un protocolo de evaluación exhaustivo con nuestras conversaciones fundamentadas curadas. Nuestra tarea propuesta de Generación de Conversaciones Fundamentadas (GCG, por sus siglas en inglés) requiere conceptos densamente fundamentados en escenas naturales a gran escala. Para ello, proponemos un Conjunto de Datos de Fundamentación de Cualquier Cosa (GranD) densamente anotado utilizando nuestra tubería de anotación automatizada propuesta que abarca 7.5M de conceptos únicos fundamentados en un total de 810M regiones disponibles con máscaras de segmentación. Además de GCG, GLaMM también se desempeña eficazmente en varias tareas posteriores, por ejemplo, segmentación de expresiones referenciales, generación de subtítulos a nivel de imagen y región, y conversaciones de visión y lenguaje. Página del Proyecto: https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial efforts towards LMMs used holistic images and text prompts to generate ungrounded textual responses. Very recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring a single object category at a time, require users to specify the regions in inputs, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of generating visually grounded detailed conversations, we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed Grounded Conversation Generation (GCG) task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks e.g., referring expression segmentation, image and region-level captioning and vision-language conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.
PDF363December 15, 2024