Modelos de Lenguaje Alineados por Píxeles
Pixel Aligned Language Models
December 14, 2023
Autores: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
cs.AI
Resumen
Los grandes modelos de lenguaje han logrado un gran éxito en los últimos años, al igual que sus variantes en el ámbito visual. Los modelos visión-lenguaje existentes pueden describir imágenes en lenguaje natural, responder preguntas relacionadas con el contenido visual o realizar razonamientos complejos sobre la imagen. Sin embargo, aún no está claro cómo se pueden realizar tareas de localización, como la anclaje de palabras o la localización referencial, utilizando grandes modelos de lenguaje. En este trabajo, nuestro objetivo es desarrollar un modelo visión-lenguaje que pueda tomar ubicaciones, por ejemplo, un conjunto de puntos o cuadros delimitadores, como entradas o salidas. Cuando se toman ubicaciones como entradas, el modelo realiza subtitulación condicionada por la ubicación, generando descripciones para el objeto o región indicada. Al generar ubicaciones como salidas, nuestro modelo regresa coordenadas de píxeles para cada palabra generada por el modelo de lenguaje, realizando así un anclaje denso de palabras. Nuestro modelo se pre-entrena en el conjunto de datos Localized Narrative, que contiene subtítulos alineados a nivel de píxel-palabra basados en la atención humana. Demostramos que nuestro modelo puede aplicarse a diversas tareas visión-lenguaje conscientes de la ubicación, incluyendo localización referencial, subtitulación condicionada por la ubicación y subtitulación densa de objetos, logrando un rendimiento de vanguardia en RefCOCO y Visual Genome. Página del proyecto: https://jerryxu.net/PixelLLM.
English
Large language models have achieved great success in recent years, so as
their variants in vision. Existing vision-language models can describe images
in natural languages, answer visual-related questions, or perform complex
reasoning about the image. However, it is yet unclear how localization tasks,
such as word grounding or referring localization, can be performed using large
language models. In this work, we aim to develop a vision-language model that
can take locations, for example, a set of points or boxes, as either inputs or
outputs. When taking locations as inputs, the model performs
location-conditioned captioning, which generates captions for the indicated
object or region. When generating locations as outputs, our model regresses
pixel coordinates for each output word generated by the language model, and
thus performs dense word grounding. Our model is pre-trained on the Localized
Narrative dataset, which contains pixel-word-aligned captioning from human
attention. We show our model can be applied to various location-aware
vision-language tasks, including referring localization, location-conditioned
captioning, and dense object captioning, archiving state-of-the-art performance
on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .