Treinamento Prévio de Linguagem-Imagem Localizada Contrastivo
Contrastive Localized Language-Image Pre-Training
October 3, 2024
Autores: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI
Resumo
A Preparação Prévia de Linguagem-Imagem Contrastiva (CLIP) tem sido um método aclamado para treinar codificadores de visão a gerar representações de imagem/texto que facilitam várias aplicações. Recentemente, o CLIP tem sido amplamente adotado como a espinha dorsal de visão de modelos de linguagem multimodais grandes (MLLMs) para conectar entradas de imagem para interações de linguagem. O sucesso do CLIP como modelo de base de visão-linguagem depende da alinhamento de anotações de texto ruidosas coletadas na web em níveis de imagem. No entanto, tais critérios podem se tornar insuficientes para tarefas subsequentes que necessitam de representações de visão detalhadas, especialmente quando o entendimento em nível de região é exigente para MLLMs. Neste artigo, melhoramos a capacidade de localização do CLIP com vários avanços. Propomos um método de pré-treinamento chamado Pré-treinamento de Linguagem-Imagem Localizada Contrastiva (CLOC) ao complementar o CLIP com perda contrastiva e módulos de região-texto. Formulamos um novo conceito, incorporações promptáveis, das quais o codificador produz incorporações de imagem fáceis de transformar em representações de região dadas dicas espaciais. Para apoiar o pré-treinamento em grande escala, projetamos um framework de legendagem enriquecido visualmente e localizado espacialmente para gerar efetivamente pseudo-rótulos de região-texto em escala. Ao escalar para bilhões de imagens anotadas, o CLOC permite incorporações regionais de alta qualidade para tarefas de reconhecimento e recuperação de região de imagem, e pode ser um substituto direto do CLIP para aprimorar MLLMs, especialmente em tarefas de referência e ancoragem.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method
for training vision encoders to generate image/text representations
facilitating various applications. Recently, CLIP has been widely adopted as
the vision backbone of multimodal large language models (MLLMs) to connect
image inputs for language interactions. The success of CLIP as a
vision-language foundation model relies on aligning web-crawled noisy text
annotations at image levels. Nevertheless, such criteria may become
insufficient for downstream tasks in need of fine-grained vision
representations, especially when region-level understanding is demanding for
MLLMs. In this paper, we improve the localization capability of CLIP with
several advances. We propose a pre-training method called Contrastive Localized
Language-Image Pre-training (CLOC) by complementing CLIP with region-text
contrastive loss and modules. We formulate a new concept, promptable
embeddings, of which the encoder produces image embeddings easy to transform
into region representations given spatial hints. To support large-scale
pre-training, we design a visually-enriched and spatially-localized captioning
framework to effectively generate region-text pseudo-labels at scale. By
scaling up to billions of annotated images, CLOC enables high-quality regional
embeddings for image region recognition and retrieval tasks, and can be a
drop-in replacement of CLIP to enhance MLLMs, especially on referring and
grounding tasks.Summary
AI-Generated Summary