ChatPaper.aiChatPaper

Pixel-Uitgelijnde Taalmodellen

Pixel Aligned Language Models

December 14, 2023
Auteurs: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
cs.AI

Samenvatting

Grote taalmodellen hebben de afgelopen jaren grote successen geboekt, evenals hun varianten in het visuele domein. Bestaande visie-taalmodellen kunnen afbeeldingen beschrijven in natuurlijke taal, visueel gerelateerde vragen beantwoorden, of complexe redeneringen over de afbeelding uitvoeren. Het is echter nog onduidelijk hoe lokalisatietaken, zoals woordverankering of verwijzende lokalisatie, kunnen worden uitgevoerd met behulp van grote taalmodellen. In dit werk streven we ernaar een visie-taalmodel te ontwikkelen dat locaties, bijvoorbeeld een set punten of vakjes, kan gebruiken als invoer of uitvoer. Wanneer locaties als invoer worden gebruikt, voert het model locatie-geconditioneerde bijschrijving uit, waarbij bijschriften worden gegenereerd voor het aangegeven object of gebied. Wanneer locaties als uitvoer worden gegenereerd, regresseert ons model pixelcoördinaten voor elk uitvoerwoord dat door het taalmodel wordt gegenereerd, en voert het zo dichte woordverankering uit. Ons model is voorgetraind op de Localized Narrative-dataset, die pixel-woord-uitgelijnde bijschrijving bevat op basis van menselijke aandacht. We laten zien dat ons model kan worden toegepast op verschillende locatiebewuste visie-taal taken, waaronder verwijzende lokalisatie, locatie-geconditioneerde bijschrijving, en dichte objectbijschrijving, en daarbij state-of-the-art prestaties behaalt op RefCOCO en Visual Genome. Projectpagina: https://jerryxu.net/PixelLLM.
English
Large language models have achieved great success in recent years, so as their variants in vision. Existing vision-language models can describe images in natural languages, answer visual-related questions, or perform complex reasoning about the image. However, it is yet unclear how localization tasks, such as word grounding or referring localization, can be performed using large language models. In this work, we aim to develop a vision-language model that can take locations, for example, a set of points or boxes, as either inputs or outputs. When taking locations as inputs, the model performs location-conditioned captioning, which generates captions for the indicated object or region. When generating locations as outputs, our model regresses pixel coordinates for each output word generated by the language model, and thus performs dense word grounding. Our model is pre-trained on the Localized Narrative dataset, which contains pixel-word-aligned captioning from human attention. We show our model can be applied to various location-aware vision-language tasks, including referring localization, location-conditioned captioning, and dense object captioning, archiving state-of-the-art performance on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .
PDF181December 15, 2024