GLaMM: Modelo Multimodal Grande con Anclaje a Píxeles
GLaMM: Pixel Grounding Large Multimodal Model
November 6, 2023
Autores: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan
cs.AI
Resumen
Los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) extienden los Modelos de Lenguaje de Gran Escala al dominio visual. Los primeros esfuerzos hacia los LMMs utilizaron imágenes holísticas y textos de entrada para generar respuestas textuales no fundamentadas. Muy recientemente, los LMMs a nivel de región han sido utilizados para generar respuestas visualmente fundamentadas. Sin embargo, están limitados a referirse a una sola categoría de objeto a la vez, requieren que los usuarios especifiquen las regiones en las entradas, o no pueden ofrecer una fundamentación densa de objetos a nivel de píxeles. En este trabajo, presentamos el Modelo Multimodal de Gran Escala con Fundamentación (GLaMM), el primer modelo que puede generar respuestas en lenguaje natural entrelazadas de manera fluida con las máscaras de segmentación de objetos correspondientes. GLaMM no solo fundamenta los objetos que aparecen en las conversaciones, sino que también es lo suficientemente flexible para aceptar tanto textos de entrada como indicaciones visuales opcionales (región de interés) como entrada. Esto permite a los usuarios interactuar con el modelo en varios niveles de granularidad, tanto en el dominio textual como en el visual. Debido a la falta de puntos de referencia estándar para el nuevo escenario de generar conversaciones detalladas visualmente fundamentadas, introducimos un protocolo de evaluación exhaustivo con nuestras conversaciones fundamentadas curadas. Nuestra tarea propuesta de Generación de Conversaciones Fundamentadas (GCG, por sus siglas en inglés) requiere conceptos densamente fundamentados en escenas naturales a gran escala. Para ello, proponemos un Conjunto de Datos de Fundamentación de Cualquier Cosa (GranD) densamente anotado utilizando nuestra tubería de anotación automatizada propuesta que abarca 7.5M de conceptos únicos fundamentados en un total de 810M regiones disponibles con máscaras de segmentación. Además de GCG, GLaMM también se desempeña eficazmente en varias tareas posteriores, por ejemplo, segmentación de expresiones referenciales, generación de subtítulos a nivel de imagen y región, y conversaciones de visión y lenguaje. Página del Proyecto: https://mbzuai-oryx.github.io/groundingLMM.
English
Large Multimodal Models (LMMs) extend Large Language Models to the vision
domain. Initial efforts towards LMMs used holistic images and text prompts to
generate ungrounded textual responses. Very recently, region-level LMMs have
been used to generate visually grounded responses. However, they are limited to
only referring a single object category at a time, require users to specify the
regions in inputs, or cannot offer dense pixel-wise object grounding. In this
work, we present Grounding LMM (GLaMM), the first model that can generate
natural language responses seamlessly intertwined with corresponding object
segmentation masks. GLaMM not only grounds objects appearing in the
conversations but is flexible enough to accept both textual and optional visual
prompts (region of interest) as input. This empowers users to interact with the
model at various levels of granularity, both in textual and visual domains. Due
to the lack of standard benchmarks for the novel setting of generating visually
grounded detailed conversations, we introduce a comprehensive evaluation
protocol with our curated grounded conversations. Our proposed Grounded
Conversation Generation (GCG) task requires densely grounded concepts in
natural scenes at a large-scale. To this end, we propose a densely annotated
Grounding-anything Dataset (GranD) using our proposed automated annotation
pipeline that encompasses 7.5M unique concepts grounded in a total of 810M
regions available with segmentation masks. Besides GCG, GLaMM also performs
effectively on several downstream tasks e.g., referring expression
segmentation, image and region-level captioning and vision-language
conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.