ChatPaper.aiChatPaper

Пиксельно-выровненные языковые модели

Pixel Aligned Language Models

December 14, 2023
Авторы: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
cs.AI

Аннотация

Крупные языковые модели достигли значительных успехов в последние годы, как и их аналоги в области компьютерного зрения. Существующие модели, объединяющие зрение и язык, способны описывать изображения на естественном языке, отвечать на вопросы, связанные с визуальным контентом, или выполнять сложные рассуждения об изображении. Однако до сих пор неясно, как можно выполнять задачи локализации, такие как привязка слов или локализация по ссылкам, с использованием крупных языковых моделей. В данной работе мы стремимся разработать модель, объединяющую зрение и язык, которая может принимать местоположения, например, набор точек или ограничивающих рамок, в качестве входных или выходных данных. Когда местоположения используются как входные данные, модель выполняет генерацию подписей с учетом локации, создавая описания для указанного объекта или области. Когда модель генерирует местоположения как выходные данные, она предсказывает координаты пикселей для каждого слова, сгенерированного языковой моделью, тем самым выполняя плотную привязку слов. Наша модель предварительно обучается на наборе данных Localized Narrative, который содержит подписи, согласованные с пикселями на основе человеческого внимания. Мы показываем, что наша модель может быть применена к различным задачам, учитывающим локализацию в области зрения и языка, включая локализацию по ссылкам, генерацию подписей с учетом локации и плотное описание объектов, достигая наилучших результатов на наборах данных RefCOCO и Visual Genome. Страница проекта: https://jerryxu.net/PixelLLM.
English
Large language models have achieved great success in recent years, so as their variants in vision. Existing vision-language models can describe images in natural languages, answer visual-related questions, or perform complex reasoning about the image. However, it is yet unclear how localization tasks, such as word grounding or referring localization, can be performed using large language models. In this work, we aim to develop a vision-language model that can take locations, for example, a set of points or boxes, as either inputs or outputs. When taking locations as inputs, the model performs location-conditioned captioning, which generates captions for the indicated object or region. When generating locations as outputs, our model regresses pixel coordinates for each output word generated by the language model, and thus performs dense word grounding. Our model is pre-trained on the Localized Narrative dataset, which contains pixel-word-aligned captioning from human attention. We show our model can be applied to various location-aware vision-language tasks, including referring localization, location-conditioned captioning, and dense object captioning, archiving state-of-the-art performance on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .
PDF181December 15, 2024