Pixelausgerichtete Sprachmodelle
Pixel Aligned Language Models
December 14, 2023
Autoren: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
cs.AI
Zusammenfassung
Große Sprachmodelle haben in den letzten Jahren große Erfolge erzielt, ebenso wie ihre Varianten im Bereich der Bildverarbeitung. Bestehende Vision-Sprache-Modelle können Bilder in natürlicher Sprache beschreiben, visuell bezogene Fragen beantworten oder komplexe Schlussfolgerungen über das Bild ziehen. Es ist jedoch noch unklar, wie Lokalisierungsaufgaben, wie Wortverankerung oder referenzielle Lokalisierung, mit großen Sprachmodellen durchgeführt werden können. In dieser Arbeit zielen wir darauf ab, ein Vision-Sprache-Modell zu entwickeln, das Standorte, beispielsweise eine Menge von Punkten oder Boxen, entweder als Eingaben oder Ausgaben verarbeiten kann. Wenn Standorte als Eingaben verwendet werden, führt das Modell standortbedingte Bildbeschreibungen durch, die Beschreibungen für das angegebene Objekt oder die Region generieren. Wenn Standorte als Ausgaben generiert werden, regressiert unser Modell Pixelkoordinaten für jedes vom Sprachmodell erzeugte Ausgabewort und führt somit eine dichte Wortverankerung durch. Unser Modell wird auf dem Localized Narrative-Datensatz vortrainiert, der pixel-wort-ausgerichtete Bildbeschreibungen aus menschlicher Aufmerksamkeit enthält. Wir zeigen, dass unser Modell auf verschiedene standortbewusste Vision-Sprache-Aufgaben angewendet werden kann, darunter referenzielle Lokalisierung, standortbedingte Bildbeschreibung und dichte Objektbeschreibung, und dabei state-of-the-art Leistungen auf RefCOCO und Visual Genome erzielt. Projektseite: https://jerryxu.net/PixelLLM.
English
Large language models have achieved great success in recent years, so as
their variants in vision. Existing vision-language models can describe images
in natural languages, answer visual-related questions, or perform complex
reasoning about the image. However, it is yet unclear how localization tasks,
such as word grounding or referring localization, can be performed using large
language models. In this work, we aim to develop a vision-language model that
can take locations, for example, a set of points or boxes, as either inputs or
outputs. When taking locations as inputs, the model performs
location-conditioned captioning, which generates captions for the indicated
object or region. When generating locations as outputs, our model regresses
pixel coordinates for each output word generated by the language model, and
thus performs dense word grounding. Our model is pre-trained on the Localized
Narrative dataset, which contains pixel-word-aligned captioning from human
attention. We show our model can be applied to various location-aware
vision-language tasks, including referring localization, location-conditioned
captioning, and dense object captioning, archiving state-of-the-art performance
on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .