ChatPaper.aiChatPaper

Addestramento pregresso contrastivo localizzato linguaggio-immagine

Contrastive Localized Language-Image Pre-Training

October 3, 2024
Autori: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI

Abstract

Il Pre-addestramento Contrastivo Linguaggio-Immagine (CLIP) è stato un metodo celebrato per addestrare gli encoder di visione a generare rappresentazioni immagine/testo che facilitano varie applicazioni. Di recente, CLIP è stato ampiamente adottato come la spina dorsale visiva dei grandi modelli di linguaggio multimodali (MLLMs) per collegare gli input delle immagini per interazioni linguistiche. Il successo di CLIP come modello di base visione-linguaggio si basa sull'allineamento di annotazioni di testo rumorose raccolte dal web a livelli di immagine. Tuttavia, tali criteri potrebbero non essere sufficienti per compiti successivi che richiedono rappresentazioni di visione dettagliate, specialmente quando la comprensione a livello di regione è impegnativa per i MLLMs. In questo articolo, miglioriamo la capacità di localizzazione di CLIP con diversi avanzamenti. Proponiamo un metodo di pre-addestramento chiamato Pre-addestramento Contrastivo Localizzato Linguaggio-Immagine (CLOC) integrando CLIP con perdita contrastiva regione-testo e moduli. Formuliamo un nuovo concetto, embedding promptabili, di cui l'encoder produce embedding di immagini facili da trasformare in rappresentazioni di regione dati suggerimenti spaziali. Per supportare il pre-addestramento su larga scala, progettiamo un framework di sottotitolatura arricchito visivamente e localizzato spazialmente per generare efficacemente pseudotesti di regione su larga scala. Scalando fino a miliardi di immagini annotate, CLOC consente di ottenere embedding regionali di alta qualità per compiti di riconoscimento e recupero di regioni di immagini, e può sostituire CLIP per potenziare i MLLMs, in particolare per compiti di riferimento e ancoraggio.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.
PDF383November 16, 2024