ChatPaper.aiChatPaper

Pré-entraînement localisé contrastif langage-image

Contrastive Localized Language-Image Pre-Training

October 3, 2024
Auteurs: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI

Résumé

La Pré-formation Contrastive Langage-Image (CLIP) est une méthode célèbre pour entraîner des encodeurs de vision à générer des représentations d'images/texte facilitant diverses applications. Récemment, CLIP a été largement adopté en tant que colonne vertébrale visuelle des grands modèles de langage multimodaux (MLLMs) pour connecter les entrées d'images aux interactions langagières. Le succès de CLIP en tant que modèle fondamental vision-langage repose sur l'alignement des annotations de texte bruyant collectées sur le web au niveau des images. Néanmoins, de tels critères peuvent s'avérer insuffisants pour les tâches en aval nécessitant des représentations visuelles fines, notamment lorsque la compréhension au niveau des régions est exigeante pour les MLLMs. Dans cet article, nous améliorons la capacité de localisation de CLIP avec plusieurs avancées. Nous proposons une méthode de pré-formation appelée Pré-formation Contrastive Localisée Langage-Image (CLOC) en complétant CLIP avec une perte contrastive et des modules texte-région. Nous formulons un nouveau concept, les embeddings promptables, dont l'encodeur produit des embeddings d'images faciles à transformer en représentations de régions en fonction d'indices spatiaux. Pour soutenir la pré-formation à grande échelle, nous concevons un cadre de légendage enrichi visuellement et localisé spatialement pour générer efficacement des pseudo-étiquettes texte-région à grande échelle. En passant à des milliards d'images annotées, CLOC permet d'obtenir des embeddings régionaux de haute qualité pour les tâches de reconnaissance et de recherche de régions d'images, et peut remplacer CLIP pour améliorer les MLLMs, notamment pour les tâches de référence et d'ancrage.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

Summary

AI-Generated Summary

PDF383November 16, 2024