Modèles de Langage Alignés au Pixel
Pixel Aligned Language Models
December 14, 2023
Auteurs: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
cs.AI
Résumé
Les grands modèles de langage ont connu un succès considérable ces dernières années, tout comme leurs variantes dans le domaine de la vision. Les modèles vision-langage existants peuvent décrire des images en langage naturel, répondre à des questions liées à la vision ou effectuer un raisonnement complexe sur l'image. Cependant, il reste incertain comment les tâches de localisation, telles que l'ancrage de mots ou la localisation référentielle, peuvent être réalisées à l'aide de grands modèles de langage. Dans ce travail, nous visons à développer un modèle vision-langage capable de prendre des localisations, par exemple un ensemble de points ou de boîtes, comme entrées ou sorties. Lorsque les localisations sont utilisées comme entrées, le modèle effectue une génération de légendes conditionnée par la localisation, produisant des descriptions pour l'objet ou la région indiquée. Lorsqu'il génère des localisations comme sorties, notre modèle régresse les coordonnées des pixels pour chaque mot généré par le modèle de langage, réalisant ainsi un ancrage dense de mots. Notre modèle est pré-entraîné sur le jeu de données Localized Narrative, qui contient des légendes alignées pixel-mot basées sur l'attention humaine. Nous montrons que notre modèle peut être appliqué à diverses tâches vision-langage prenant en compte la localisation, incluant la localisation référentielle, la génération de légendes conditionnée par la localisation et la génération dense de légendes d'objets, atteignant des performances de pointe sur RefCOCO et Visual Genome. Page du projet : https://jerryxu.net/PixelLLM .
English
Large language models have achieved great success in recent years, so as
their variants in vision. Existing vision-language models can describe images
in natural languages, answer visual-related questions, or perform complex
reasoning about the image. However, it is yet unclear how localization tasks,
such as word grounding or referring localization, can be performed using large
language models. In this work, we aim to develop a vision-language model that
can take locations, for example, a set of points or boxes, as either inputs or
outputs. When taking locations as inputs, the model performs
location-conditioned captioning, which generates captions for the indicated
object or region. When generating locations as outputs, our model regresses
pixel coordinates for each output word generated by the language model, and
thus performs dense word grounding. Our model is pre-trained on the Localized
Narrative dataset, which contains pixel-word-aligned captioning from human
attention. We show our model can be applied to various location-aware
vision-language tasks, including referring localization, location-conditioned
captioning, and dense object captioning, archiving state-of-the-art performance
on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .