Modelli Linguistici Allineati a Livello di Pixel
Pixel Aligned Language Models
December 14, 2023
Autori: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
cs.AI
Abstract
I grandi modelli linguistici hanno ottenuto un grande successo negli ultimi anni, così come le loro varianti nel campo della visione. I modelli esistenti di visione e linguaggio sono in grado di descrivere immagini in linguaggio naturale, rispondere a domande relative al visivo o eseguire ragionamenti complessi sull'immagine. Tuttavia, non è ancora chiaro come i compiti di localizzazione, come il grounding di parole o la localizzazione referenziale, possano essere eseguiti utilizzando grandi modelli linguistici. In questo lavoro, miriamo a sviluppare un modello di visione e linguaggio che possa utilizzare localizzazioni, ad esempio un insieme di punti o riquadri, come input o output. Quando le localizzazioni vengono utilizzate come input, il modello esegue la generazione di didascalie condizionate alla posizione, producendo descrizioni per l'oggetto o la regione indicata. Quando genera localizzazioni come output, il nostro modello regredisce le coordinate dei pixel per ogni parola generata dal modello linguistico, eseguendo così un grounding denso delle parole. Il nostro modello è pre-addestrato sul dataset Localized Narrative, che contiene didascalie allineate a livello di pixel-parola basate sull'attenzione umana. Dimostriamo che il nostro modello può essere applicato a vari compiti di visione e linguaggio consapevoli della posizione, inclusi la localizzazione referenziale, la generazione di didascalie condizionate alla posizione e la descrizione densa di oggetti, raggiungendo prestazioni all'avanguardia su RefCOCO e Visual Genome. Pagina del progetto: https://jerryxu.net/PixelLLM.
English
Large language models have achieved great success in recent years, so as
their variants in vision. Existing vision-language models can describe images
in natural languages, answer visual-related questions, or perform complex
reasoning about the image. However, it is yet unclear how localization tasks,
such as word grounding or referring localization, can be performed using large
language models. In this work, we aim to develop a vision-language model that
can take locations, for example, a set of points or boxes, as either inputs or
outputs. When taking locations as inputs, the model performs
location-conditioned captioning, which generates captions for the indicated
object or region. When generating locations as outputs, our model regresses
pixel coordinates for each output word generated by the language model, and
thus performs dense word grounding. Our model is pre-trained on the Localized
Narrative dataset, which contains pixel-word-aligned captioning from human
attention. We show our model can be applied to various location-aware
vision-language tasks, including referring localization, location-conditioned
captioning, and dense object captioning, archiving state-of-the-art performance
on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .