Kontrastives Lokalisiertes Sprach-Bild-Vortraining
Contrastive Localized Language-Image Pre-Training
October 3, 2024
Autoren: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI
Zusammenfassung
Die kontrastive Sprachbild-Vorbereitung (CLIP) ist eine gefeierte Methode zur Schulung von Vision-Encodern zur Erzeugung von Bild-/Text-Repräsentationen, die verschiedene Anwendungen erleichtern. In letzter Zeit wurde CLIP weitgehend als Vision-Grundlage multimodaler großer Sprachmodelle (MLLMs) übernommen, um Bildinputs für Sprachinteraktionen zu verbinden. Der Erfolg von CLIP als Modell für Vision-Sprache-Grundlagen beruht darauf, web-gecrawlte, rauschige Textannotationen auf Bildniveau auszurichten. Dennoch können solche Kriterien für nachgelagerte Aufgaben, die feinkörnige Vision-Repräsentationen erfordern, insbesondere wenn eine regionale Verständnisstufe für MLLMs anspruchsvoll ist, unzureichend sein. In diesem Papier verbessern wir die Lokalisierungsfähigkeit von CLIP mit mehreren Fortschritten. Wir schlagen eine Vorbereitungsmethode namens Kontrastive Lokalisierte Sprachbild-Vorbereitung (CLOC) vor, indem wir CLIP mit regions-textkontrastivem Verlust und Modulen ergänzen. Wir formulieren ein neues Konzept, promptbare Einbettungen, bei dem der Encoder Bild-Einbettungen erzeugt, die leicht in regionsrepräsentationen umgewandelt werden können, wenn räumliche Hinweise gegeben sind. Um die Vorbereitung im großen Maßstab zu unterstützen, entwerfen wir ein visuell angereichertes und räumlich lokalisiertes Bildunterschriftungs-Framework, um effektiv regions-text Pseudolabels im großen Maßstab zu generieren. Durch die Skalierung auf Milliarden annotierte Bilder ermöglicht CLOC hochwertige regionale Einbettungen für Bildregionerkennungs- und Abrufaufgaben und kann ein Plug-and-Play-Ersatz für CLIP sein, um MLLMs zu verbessern, insbesondere bei Verweis- und Verankerungsaufgaben.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method
for training vision encoders to generate image/text representations
facilitating various applications. Recently, CLIP has been widely adopted as
the vision backbone of multimodal large language models (MLLMs) to connect
image inputs for language interactions. The success of CLIP as a
vision-language foundation model relies on aligning web-crawled noisy text
annotations at image levels. Nevertheless, such criteria may become
insufficient for downstream tasks in need of fine-grained vision
representations, especially when region-level understanding is demanding for
MLLMs. In this paper, we improve the localization capability of CLIP with
several advances. We propose a pre-training method called Contrastive Localized
Language-Image Pre-training (CLOC) by complementing CLIP with region-text
contrastive loss and modules. We formulate a new concept, promptable
embeddings, of which the encoder produces image embeddings easy to transform
into region representations given spatial hints. To support large-scale
pre-training, we design a visually-enriched and spatially-localized captioning
framework to effectively generate region-text pseudo-labels at scale. By
scaling up to billions of annotated images, CLOC enables high-quality regional
embeddings for image region recognition and retrieval tasks, and can be a
drop-in replacement of CLIP to enhance MLLMs, especially on referring and
grounding tasks.Summary
AI-Generated Summary