Addestramento pregresso contrastivo localizzato linguaggio-immagine
Contrastive Localized Language-Image Pre-Training
October 3, 2024
Autori: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI
Abstract
Il Pre-addestramento Contrastivo Linguaggio-Immagine (CLIP) è stato un metodo celebrato per addestrare gli encoder di visione a generare rappresentazioni immagine/testo che facilitano varie applicazioni. Di recente, CLIP è stato ampiamente adottato come la spina dorsale visiva dei grandi modelli di linguaggio multimodali (MLLMs) per collegare gli input delle immagini per interazioni linguistiche. Il successo di CLIP come modello di base visione-linguaggio si basa sull'allineamento di annotazioni di testo rumorose raccolte dal web a livelli di immagine. Tuttavia, tali criteri potrebbero non essere sufficienti per compiti successivi che richiedono rappresentazioni di visione dettagliate, specialmente quando la comprensione a livello di regione è impegnativa per i MLLMs. In questo articolo, miglioriamo la capacità di localizzazione di CLIP con diversi avanzamenti. Proponiamo un metodo di pre-addestramento chiamato Pre-addestramento Contrastivo Localizzato Linguaggio-Immagine (CLOC) integrando CLIP con perdita contrastiva regione-testo e moduli. Formuliamo un nuovo concetto, embedding promptabili, di cui l'encoder produce embedding di immagini facili da trasformare in rappresentazioni di regione dati suggerimenti spaziali. Per supportare il pre-addestramento su larga scala, progettiamo un framework di sottotitolatura arricchito visivamente e localizzato spazialmente per generare efficacemente pseudotesti di regione su larga scala. Scalando fino a miliardi di immagini annotate, CLOC consente di ottenere embedding regionali di alta qualità per compiti di riconoscimento e recupero di regioni di immagini, e può sostituire CLIP per potenziare i MLLMs, in particolare per compiti di riferimento e ancoraggio.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method
for training vision encoders to generate image/text representations
facilitating various applications. Recently, CLIP has been widely adopted as
the vision backbone of multimodal large language models (MLLMs) to connect
image inputs for language interactions. The success of CLIP as a
vision-language foundation model relies on aligning web-crawled noisy text
annotations at image levels. Nevertheless, such criteria may become
insufficient for downstream tasks in need of fine-grained vision
representations, especially when region-level understanding is demanding for
MLLMs. In this paper, we improve the localization capability of CLIP with
several advances. We propose a pre-training method called Contrastive Localized
Language-Image Pre-training (CLOC) by complementing CLIP with region-text
contrastive loss and modules. We formulate a new concept, promptable
embeddings, of which the encoder produces image embeddings easy to transform
into region representations given spatial hints. To support large-scale
pre-training, we design a visually-enriched and spatially-localized captioning
framework to effectively generate region-text pseudo-labels at scale. By
scaling up to billions of annotated images, CLOC enables high-quality regional
embeddings for image region recognition and retrieval tasks, and can be a
drop-in replacement of CLIP to enhance MLLMs, especially on referring and
grounding tasks.