Treinamento Prévio de Linguagem-Imagem Localizada Contrastivo

Resumo

A Preparação Prévia de Linguagem-Imagem Contrastiva (CLIP) tem sido um método aclamado para treinar codificadores de visão a gerar representações de imagem/texto que facilitam várias aplicações. Recentemente, o CLIP tem sido amplamente adotado como a espinha dorsal de visão de modelos de linguagem multimodais grandes (MLLMs) para conectar entradas de imagem para interações de linguagem. O sucesso do CLIP como modelo de base de visão-linguagem depende da alinhamento de anotações de texto ruidosas coletadas na web em níveis de imagem. No entanto, tais critérios podem se tornar insuficientes para tarefas subsequentes que necessitam de representações de visão detalhadas, especialmente quando o entendimento em nível de região é exigente para MLLMs. Neste artigo, melhoramos a capacidade de localização do CLIP com vários avanços. Propomos um método de pré-treinamento chamado Pré-treinamento de Linguagem-Imagem Localizada Contrastiva (CLOC) ao complementar o CLIP com perda contrastiva e módulos de região-texto. Formulamos um novo conceito, incorporações promptáveis, das quais o codificador produz incorporações de imagem fáceis de transformar em representações de região dadas dicas espaciais. Para apoiar o pré-treinamento em grande escala, projetamos um framework de legendagem enriquecido visualmente e localizado espacialmente para gerar efetivamente pseudo-rótulos de região-texto em escala. Ao escalar para bilhões de imagens anotadas, o CLOC permite incorporações regionais de alta qualidade para tarefas de reconhecimento e recuperação de região de imagem, e pode ser um substituto direto do CLIP para aprimorar MLLMs, especialmente em tarefas de referência e ancoragem.

English

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

Treinamento Prévio de Linguagem-Imagem Localizada Contrastivo

Contrastive Localized Language-Image Pre-Training

Resumo

Support